✨Biên tập video
nhỏ|phải|Một biên tập viên đang chỉnh sửa video tại gia Biên tập video (Video editing) hay chỉnh sửa video là quá trình xử lý, sắp xếp, cắt ghép và chỉnh sửa các cảnh quay (video clip) riêng lẻ để tạo thành một sản phẩm video hoàn chỉnh, có nội dung, cấu trúc và nhịp điệu, tiết tấu. Đây là kỹ nghệ và kỹ thuật kể chuyện thông qua hình ảnh chuyển động. Biên tập video là công đoạn hậu kỳ và sắp xếp các cảnh quay video. Để giới thiệu quá trình biên tập video chất lượng, hấp dẫn đến với công chúng, các biên tập viên video phải hợp lý và đảm bảo họ hiểu rõ về lĩnh vực phim ảnh, truyền hình và các loại hình quay phim khác. Cấu trúc chỉnh sửa video và trình bày tất cả thông tin video, bao gồm phim và chương trình truyền hình, quảng cáo video và bài luận video. Chỉnh sửa video đã được đại chúng hóa đáng kể trong những năm gần đây bằng những phần mềm chỉnh sửa có sẵn cho máy tính cá nhân (PC). Chỉnh sửa video có thể khó khăn và tẻ nhạt, vì vậy một số công nghệ đã được tạo ra để hỗ trợ mọi người trong nhiệm vụ này. Nhìn chung, để chỉnh sửa video có nhiều phong cách và ứng dụng khác nhau. Mặc dù trước đây là "địa phận" của những máy móc đắt tiền được gọi là trình biên tập video, phần mềm biên tập video nhưng hiện đã có sẵn cho máy tính cá nhân và máy trạm.
Công đoạn
nhỏ|phải|Chỉnh sửa video trong những năm 2000 nhỏ|phải|Biên tập video chuyên nghiệp thời nay Biên tập video bao gồm cắt các phân đoạn (cắt xén), sắp xếp lại các clip và thêm các hiệu ứng chuyển tiếp và hiệu ứng đặc biệt khác. Các công đoạn cơ bản trong quy trình, trình tự biên tập, chỉnh sửa video gồm:
- Tổ chức và sắp xếp dữ liệu (Organizing): Sau khi nhận tất cả các file video, âm thanh, hình ảnh thô từ đội sản xuất, biên tập viên sẽ sắp xếp chúng một cách khoa học vào các thư mục. Đội ngũ biên tập viên sẽ xem qua toàn bộ dữ liệu (logging) và có thể đánh dấu (tagging) những cảnh quay quan trọng hoặc tốt nhất.
- Dựng lên bản nháp (Assembly/Rough cut): Đây là giai đoạn lắp ráp các cảnh quay theo đúng thứ tự của kịch bản trên một timeline (dòng thời gian). Mục tiêu ở bước này là xây dựng bộ khung của câu chuyện, chưa phải là giai đoạn quan tâm nhiều đến chi tiết, kỹ xảo hay chuyển cảnh mượt mà.
- Công đoạn tinh chỉnh (Fine cut): Biên tập viên sẽ xem lại bản dựng nháp và bắt đầu gọt giũa. Họ sẽ điều chỉnh điểm vào (in-point) và điểm ra (out-point) của từng cảnh quay một cách chính xác đến từng khung hình (frame). Cắt bỏ những đoạn thừa, điều chỉnh nhịp điệu để câu chuyện trôi chảy và hấp dẫn hơn. Đây là giai đoạn mà đạo diễn và nhà sản xuất thường xuyên đưa ra góp ý.
- Công đoạn bổ sung thêm chuyển cảnh và hiệu ứng (Transitions & Effects): Sử dụng các hiệu ứng chuyển cảnh (ví dụ như hiệu ứng mờ chồng - cross dissolve, cắt thẳng - hard cut) để nối các cảnh quay với nhau một cách mượt mà hoặc có chủ ý nghệ thuật. Thêm các hiệu ứng hình ảnh (VFX), đồ họa chuyển động (motion graphics), tiêu đề, và các yếu tố đồ họa khác.
- Công đoạn chỉnh màu và âm thanh (Color & Sound): Chỉnh màu (Color Correction & Grading): Điều chỉnh màu sắc để đảm bảo sự đồng nhất giữa các cảnh quay và tạo ra phong cách, tâm trạng cho video. Biên tập âm thanh, thêm nhạc nền, hiệu ứng âm thanh (SFX), lồng tiếng, giọng thuyết minh, làm sạch lời thoại và cân bằng âm lượng giữa các yếu tố âm thanh.
- Xuất bản (Exporting): Sau khi video đã được hoàn thiện và duyệt, biên tập viên sẽ xuất (render) file video ra định dạng cuối cùng với chất lượng và thông số kỹ thuật phù hợp với nền tảng phát hành (ví dụ: YouTube, Facebook, truyền hình, rạp chiếu phim).
Cắt ghép
Ngày nay, việc biên tập, chỉnh sửa, cắt ghép video ngày càng tinh xảo, với nhiều công cụ, tiện ích, trong đó, công nghệ chỉnh sửa video ghép mặt, hay còn được biết đến rộng rãi với thuật ngữ Deepfake, là một trong những ứng dụng đột phá và cũng gây tranh cãi nhất của trí tuệ nhân tạo (AI) hiện nay. Đây là công nghệ sử dụng trí tuệ nhân tạo, cụ thể là các thuật toán học sâu, để tạo ra các sản phẩm video, hình ảnh hoặc âm thanh giả mạo cực kỳ chân thực, công nghệ này cho phép hoán đổi khuôn mặt (face swap) của một người này sang cơ thể của một người khác trong một video có sẵn. Kết quả là video mới sẽ có nhân vật mang khuôn mặt của người được ghép nhưng vẫn giữ nguyên biểu cảm, cử động miệng, cái chớp mắt và chuyển động đầu của nhân vật trong video gốc. Việc này tạo ra nguy cơ lừa đảo qua mạng khi kẻ xấu có thể tạo video call giả mạo người thân, bạn bè, yêu cầu chuyển tiền khẩn cấp, do hình ảnh và giọng nói quá giống thật, nhiều người đã bị lừa.
Để thực hiện và tạo được sản phẩm chất lượng thì điều kiện tiên quyết là phải có dữ liệu nguồn đủ đa dạng và chất lượng (các file hình ảnh, video đầu vào càng nhiều, càng chi tiết càng tốt) đây là "nguyên liệu" quyết định chất lượng sản phẩm cuối cùng. Trong đó cần hai bộ dữ liệu gồm Khuôn mặt nguồn (Source - src) là khuôn mặt muốn ghép vào video. Dữ liệu này cần số lượng lớn, có thể cần đến hàng trăm đến hàng nghìn hình ảnh chất lượng cao. Dữ liệu này cũng cần phải đa dạng, cần có nhiều góc mặt (chính diện, nghiêng trái, nghiêng phải, ngước lên, cúi xuống), nhiều biểu cảm (cười, buồn, ngạc nhiên, cử chỉ miệng, môi mấp máy, mắt, chớp mắt, liếc mắt), và nhiều điều kiện ánh sáng khác nhau. Dữ liệu này có thể được lấy từ hình ảnh hoặc trích xuất từ các video của người đó. Tiếp theo là video đích (Destination - dst) là video gốc mà muốn thay thế khuôn mặt của nhân vật. Video này cần có độ phân giải cao, hình ảnh rõ nét. Sau khi có nguồn tạo thì thực hiện theo các quy trình cụ thể, theo đó các phần mềm, ứng dụng như DeepFaceLab sẽ phân tích, xử lý chia nhỏ quy trình thành các bước rõ ràng, thường được thực hiện bằng cách chạy các file .bat.
Công đoạn này gồm trích xuất hình ảnh từ video (Extract images from video) để chuyển đổi video (cả video nguồn và video đích) thành một chuỗi các hình ảnh tĩnh (khung hình - frame). Sau đó thực hiện chạy file cho video nguồn và video đích. Công đoạn tiếp theo là trích xuất bộ khuôn mặt (Extract faceset) từ hàng nghìn khung hình đã trích xuất, phần mềm sẽ dùng AI để nhận diện, cắt (crop) và căn chỉnh (align) riêng phần khuôn mặt. Kết quả là có hai thư mục chứa đầy ảnh khuôn mặt của nguồn (src) và đích (dst). Sau đó sẽ là công đoạn thực hiện chạy file khi đã làm sạch dữ liệu thủ công, xóa đi những ảnh bị crop sai, mờ, mặt bị che khuất, hoặc góc mặt quá nghiêng. Bước này rất tốn thời gian nhưng cực kỳ quan trọng. Sau đó là huấn luyện Mô hình AI (Train the Model) để xây dựng và "dạy" cho một mô hình AI cách để biến đổi khuôn mặt nguồn (src) sao cho phù hợp với đặc điểm của khuôn mặt đích (dst). Mô hình sẽ học các đặc điểm nhận dạng cốt lõi của mặt nguồn (hình dáng mắt, mũi, miệng) và học cách áp dụng chúng lên các cử động, biểu cảm, ánh sáng của mặt đích. Khi được xử lý thì các khuôn mặt sẽ dần dần trở nên rõ nét và giống thật hơn qua hàng nghìn vòng lặp (iterations).
Bước sau cùng là dừng quá trình huấn luyện khi thấy chất lượng trong cửa sổ preview đã đạt yêu cầu và chỉ số lỗi (loss value) không còn giảm nhiều. Sau đó sẽ thực hiện ghép mặt (Merge/Swap), sử dụng mô hình AI đã được huấn luyện để ghép các khuôn mặt đã được biến đổi vào lại các khung hình của video đích. Tại bước này sẽ tinh chỉnh nhiều thông số để kết quả trông liền mạch nhất, chẵng hạn như Mask (mặt nạ) sẽ điều chỉnh vùng khuôn mặt được áp dụng. Color adjustment là việc tinh chỉnh màu sắc da cho khớp với video gốc. Dùng Blending mode, chọn chế độ hòa trộn để làm mờ các cạnh ghép. Sau khi xong thì chuyển đổi thành Video hoàn chỉnh (Convert to Video) để ghép chuỗi các khung hình đã được chỉnh sửa lại thành một file video duy nhất và thêm lại âm thanh từ video gốc. Sau bước này, sẽ có một sản phẩm deepfake hoàn chỉnh. Để có kết quả chuyên nghiệp nhất, nhiều người còn đưa video này vào các phần mềm dựng phim như Adobe Premiere để thực hiện hậu kỳ, tinh chỉnh màu sắc và thêm hiệu ứng để che đi các lỗi nhỏ. Khi công nghệ ngày càng tinh vi, việc phát hiện trở nên khó khăn hơn nhưng để phân biệt thật giả bằng trực quan thì có thể chú ý đến một số dấu hiệu như chuyển động không tự nhiên, khuôn mặt có vẻ "lạc lõng" so với cổ và cơ thể, một số nhân vật ít chớp mắt hoặc chớp mắt không tự nhiên. Màu da của khuôn mặt không khớp hoàn toàn với vùng da ở cổ. Ánh sáng trên mặt và trên phần còn lại của video không đồng nhất, hắt bóng không đúng quy luật phản chiếu, khẩu hình miệng đôi khi không khớp 100% với âm thanh phát ra. Các chi tiết bị mờ hoặc biến dạng, chú ý đến các vùng rìa của khuôn mặt, tóc, hoặc các chi tiết nhỏ như răng, có thể chúng sẽ bị mờ và thiếu sắc nét.
