Mocap = Motion Capture
“Vậy, anh có ghi lại Mocap, nhấn một cái nút, và xong việc không?”
Tôi đã bị hỏi câu này hàng chục lần. Nghe có vẻ hợp lý: một diễn viên mặc bộ đồ, làm các động tác, máy tính ghi lại hết, và bạn có ngay một đoạn hoạt hình – animation. Nhanh và dễ, đúng không?
Nhưng thật ra mọi thứ phức tạp hơn nhiều. Motion Capture giúp xây dựng chuyển động cho VFX & Animation, trong các lĩnh vực giải trí từ phát triển video games, truyền hình, phim điện ảnh đến cả Tiktok, Instagram ngày nay thường được biết đến với Avatar, còn tăng tốc kết hợp cả với AI.
Trong bài viết này nói nhiều về kỹ năng của một người làm motion capture trong các qui trình làm animation CGI cho phim, cho video games sử dụng các camera ghi nhận chuyên biệt và các bộ đồ có thiết bị trả tín hiệu về là dữ liệu làm animation từ chuyển động.

Đúng là Mocap (công nghệ ghi lại chuyển động) giúp làm việc nhanh hơn, nếu không thì ai dùng nó làm gì?
Nhưng nếu bạn chỉ ghi động tác rồi bỏ ngay vào dự án, kết quả sẽ không đẹp đâu. Mocap là một công cụ, giống như một chiếc máy ảnh đắt tiền. Nếu bạn là người quay phim giỏi, bạn sẽ tạo ra một tác phẩm tuyệt vời. Nhưng nếu bạn là người mới, bạn chỉ được một bức ảnh mờ nhòe, xấu xí. Mocap cũng vậy – nó chỉ tốt khi người dùng biết cách sử dụng.
Hãy tưởng tượng bạn có một chiếc máy ảnh xịn. Nếu bạn biết cách quay, bạn sẽ có một bộ phim đẹp. Nếu không, bạn chỉ có ảnh mờ và lộn xộn. Với Mocap, bạn có thể mặc bộ đồ, nhưng nếu diễn viên không biết cách di chuyển đúng, animation sẽ trông kỳ lạ, giả tạo. Ghi lại động tác chỉ là bước đầu. Để có một đoạn animation đẹp và dùng được, bạn cần ít nhất ba thứ:
- Thiết bị chính xác, không bỏ sót những chi tiết nhỏ trong động tác.
- Diễn viên Mocap giỏi, biết cách di chuyển để kết quả đẹp. Đây gần như là điều tất yếu, diễn viên chính là người thực hiện các chuyển động sau đó được đem vào làm CGI animation.
- Retargeting (điều chỉnh động tác cho nhân vật) và cleanup (làm sạch dữ liệu), biến dữ liệu Mocap thành animation hoàn chỉnh.
Nếu thiếu một trong những thứ này, bạn sẽ mất thêm nhiều giờ để sửa lỗi thay vì tiết kiệm thời gian. Nhưng nếu làm đúng, Mocap sẽ giúp bạn làm nhanh hơn rất nhiều!
Vậy tại sao Mocap không chỉ là “nhấn nút và xong” như mọi người nghĩ?
Khi mới nghe về Mocap, ai cũng hỏi: “Có gì khó đâu? Mặc bộ đồ, ghi lại động tác, và có ngay animation, đúng không?” Nghe thì có lý, vì Mocap ghi động tác ngay lập tức. Nhưng nếu đơn giản vậy, sao vẫn cần những người làm animation chuyên nghiệp?
Hãy xem chuyện gì xảy ra sau khi ghi hình nhé:
- Ghi động tác (motion recording): Một người mặc bộ đồ Mocap làm các động tác, máy tính ghi lại vị trí cơ thể. Quan trọng là không được làm rối, như vung tay lung tung hay mất tín hiệu cảm biến.
- Xử lý dữ liệu (data processing – ở đây chính là chuyên gia về mocap dùng ứng dụng làm): Dữ liệu thô giống như một bản nháp – có thể có artifacts (các phần sai lệch), động tác không tự nhiên, hoặc lỗi theo dõi. Đặc biệt là tay, ngón tay, và khi chân chạm đất thường bị sai.
- Retargeting (character retargeting): Dữ liệu Mocap chỉ là động tác của người thật. Muốn dùng cho nhân vật animation (tức gắn dữ liệu vào mô hình 3D), bạn phải điều chỉnh thủ công vì nhân vật mô hình 3D có thể cao hơn, thấp hơn, hoặc khác tỷ lệ cơ thể. Ví dụ như con người diễn xuất animation con vật…
- Cleanup và hoàn thiện (final cleanup & refinement): Đây là lúc kỳ diệu bắt đầu. Người làm animation sửa lỗi nhỏ, làm động tác mượt mà hơn, và thêm phong cách cho dự án. Nếu là phim animation, họ làm động tác rõ ràng hơn. Nếu là phim thật, họ bỏ bớt những thứ làm động tác trông giả.
Vậy tại sao cần Mocap nếu phải sửa nhiều vậy? Vì nó tiết kiệm thời gian! Nếu không có Mocap, người làm animation phải tự vẽ từng khung hình. Thử tưởng tượng làm một điệu nhảy hay cảnh đánh nhau mất bao lâu? Với Mocap, bạn có dữ liệu sống động ngay lập tức, chỉ cần chỉnh lại cho đẹp.
Mocap tiết kiệm thời gian ở đâu?
Có người hỏi: “Nếu phải chỉnh sửa sau khi ghi Mocap, thì tiết kiệm ở đâu?” Đúng là tôi không thể lấy dữ liệu Mocap rồi bỏ ngay vào phim hay game được. Nhưng nếu không có Mocap, tôi còn chẳng làm kịp trong thời gian ngắn.
Ví dụ, tôi đang làm một loạt animation nhảy dài 2 phút. Nếu vẽ tay, mỗi đoạn mất hàng tuần, thậm chí hàng tháng. Nhưng với Mocap? Chỉ hai hoặc ba ngày là xong!
Tiết kiệm ở chỗ tôi không phải tự tạo mọi động tác từ đầu. Tôi không cần đặt từng vị trí tay, chân, hay tính xem cơ thể nghiêng thế nào. Mocap cho tôi dữ liệu sống động, tự nhiên, chỉ cần chỉnh lại một chút cho phù hợp phong cách – như thêm nét vui cho animation vui nhộn hoặc làm mượt mà cho animation chân thực.
Nhưng không có bản ghi nào hoàn hảo. Có thể có micro-movements (động tác rất nhỏ) làm nhân vật trông giật mình, hoặc lỗi khi chân chạm đất. Việc chỉnh sửa này nhanh hơn rất nhiều so với vẽ từ đầu.
Tại thời điểm bài viết này, cần biết có các kỹ nghệ tạo ra animation từ ghi nhận chuyển động của diễn viên rất tiên tiến, tự động hóa, dành cho các studios nhỏ, các cá nhân làm nội dung (content creator) ở mức tối thiểu hóa về việc học kỹ nghệ, tối thiểu hóa việc đầu tư trang thiết bị, có thể chỉ dùng cái điện thoại. Ví dụ ứng dụng cloud-base Move.AI sẽ cho ra các nhân vật thường thấy diễn xuất trên mạng xã hội TikTok. Điểm trừ của Cloud-base là chi phí tính qua credit, “bỏ xèn vào thì chạy, hư thì làm lại – làm lại phần bỏ xèn”
Tại sao tôi chọn Xsens? (Ngoài Xsens còn có Vicon, Rokoko..)
Khi nói về Mocap, mọi người hay hỏi: “Anh dùng thiết bị gì?” Có người nghĩ chỉ cần mua thiết bị đắt nhất là xong. Nhưng không có thiết bị nào tự làm hết mọi thứ. Tôi dùng Xsens, và có lý do rõ ràng.
- Xsens không chỉ là bộ đồ, mà là một hệ thống siêu chính xác. Nó ghi lại cả những động tác nhỏ xíu như nghiêng người hay đổi trọng tâm từ chân này sang chân kia.
- Nó linh hoạt. Không như hệ thống quang học (dùng camera), Xsens không cần chỗ đặc biệt. Chỉ cần mặc vào, chỉnh trong một phút, và làm việc ở bất cứ đâu – trong nhà, ngoài trời, hay chỗ đông đồ điện tử.
Trên thị trường có vài hệ thống Mocap không cần camera: Xsens, Rokoko, và Perception Neuron. Nhưng chúng khác nhau nhiều:
- Rokoko: Rẻ, tốt cho người mới, nhưng dữ liệu hay bị drift (trôi lệch), không ổn định cho việc chuyên nghiệp. Ý tác giả đang thảo luận về qui mô đầu tư của dự án.
- Perception Neuron: Cũng rẻ, nhưng dễ bị nhiễu, nhất là chỗ có kim loại. Dùng ngoài đời thật giống chơi xổ số! (cái này hàng Trung Quốc phát triển nhiều năm trước)
- Xsens: Đắt hơn, nhưng đáng tiền. Nó giảm drift, chính xác, và hoạt động tốt mọi nơi. Phần mềm MVN Animate Pro còn tự động làm mượt động tác, bớt việc sửa tay.
Sao giá khác nhau vậy? Vì Xsens đầu tư nhiều năm để giảm lỗi, làm dữ liệu sạch hơn. Nhưng dù thiết bị tốt, nếu diễn viên không biết di chuyển đúng, kết quả vẫn không đẹp.
Diễn viên ở đây đang nói tới không chỉ là con người mà còn có con vật, ví dự như ngựa, chó, mèo … như video ở dưới đây có thể thấy chú mèo được diễn vai trò quan trọng cho nhân vật Boss trong video game Wukon Black Myth nổi tiếng của Trung Quốc.
Diễn viên Mocap quan trọng thế nào?
Mocap không phải chỉ là bộ đồ – nó ghi lại cách diễn viên di chuyển. Nếu diễn viên không giỏi, dữ liệu sẽ kém, giống như diễn viên dở thì phim hay máy quay phim xịn cũng không cứu được.
Tôi từng thấy người mới mặc bộ đồ Mocap. Họ di chuyển cứng nhắc, kỳ lạ, vì chưa quen. Kết quả? Animation trông giả, mất tự nhiên, và người làm animation phải sửa nhiều.
Diễn viên giỏi như Lessie (làm việc với Xsens) thì khác. Cô ấy biết:
- Mocap ghi lại mọi chi tiết, nên phải làm động tác rõ ràng hơn một chút để không bị mờ khi đưa vào nhân vật.
- Di chuyển mượt mà, không giật lung tung, để dễ xử lý sau.
- Thêm tính cách cho nhân vật, để animation có hồn, không chỉ là động tác máy móc.
Nếu diễn viên không nghĩ tới nhân vật, dữ liệu sẽ khô khan, và người làm animation phải làm lại nhiều.
Sao vẫn cần chỉnh sửa sau Mocap?
Nếu Mocap hoàn hảo ngay từ đầu, nghề làm animation đã biến mất rồi. Nhưng không, Mocap chỉ là dữ liệu thô, cần chỉnh sửa như:
- Micro-movements: Động tác nhỏ quá làm nhân vật giật mình, phải bỏ bớt.
- Surface contacts: Chân có thể trông lơ lửng hoặc xuyên qua sàn, cần sửa.
- Dynamics: Điều chỉnh động tác cho phù hợp phong cách – mượt mà hơn hay mạnh mẽ hơn.
- Retargeting: Nhân vật có thể cao 220 cm hoặc lùn 80 cm, khác với người thật, nên phải chỉnh lại.
Hãy nghĩ như quay phim: bạn quay một cảnh đẹp, nhưng vẫn cần cắt ghép, chỉnh màu, thêm âm thanh. Mocap cũng vậy – dữ liệu cần được làm đẹp để dùng được. Nhưng dù có chỉnh sửa, Mocap vẫn nhanh hơn vẽ tay rất nhiều!
Kết Luận: Mocap không phải phép màu
Mocap là công cụ giúp làm animation nhanh hơn, nhưng không thay thế người làm animation. Có người bảo nó là “mánh khóe” cho người lười, có người nói không có Mocap thì không làm được animation chân thực. Sự thật là Mocap giúp tiết kiệm thời gian – từ vài tuần xuống vài ngày – nhưng cần:
- Thiết bị tốt như Xsens.
- Diễn viên biết di chuyển đúng.
- Người xử lý dữ liệu giỏi.
Khi kết hợp đúng, Mocap tạo ra animation đẹp mà không lo lỗi. Còn chuyện “AI sẽ thay Mocap à?” thì tôi nghĩ: chỉ cần con người còn sáng tạo, Mocap vẫn là công cụ mạnh mẽ trong tay những người giỏi!
Hiện nay đã có AI Predict hành động từ trong video để làm animation, một dạng motion capture nhưng ngay trên các video footage, không phải thiết lập hạ tầng đắt đỏ camera, trung tâm điều khiển, ngay cả một studios nhỏ xíu cũng dễ hoạt động hơn. Đây là link về Wonder Dynamic một AI giúp làm motion capture trên nền tảng Cloud-Based đến từ Autodesk.