Câu nói chính xác là “Nhất nghệ tinh, nhất thân vinh” (一艺精, 一身荣). Đây là một câu ngạn ngữ Hán Việt có nguồn gốc từ nền văn hóa Á Đông, được ông cha ta (cổ nhân) đúc kết và truyền lại qua nhiều thế hệ.

Trong nhiều thập kỷ, câu nói “nhất nghệ tinh nhất vinh quang” được xem như một triết lý nghề nghiệp vững chắc: nếu một người giỏi sâu một kỹ năng, họ có thể xây dựng vị trí ổn định trong ngành. Điều này từng đặc biệt đúng trong lĩnh vực VFX, animation và đồ họa máy tính, nơi pipeline sản xuất được chia thành nhiều department chuyên biệt. Một lighting artist có thể tập trung hoàn toàn vào lighting, một compositor chỉ làm compositing, và một modeler chuyên modeling. Cách tổ chức này tạo ra các vertical specialist (nghành dọc), tức những nghệ sĩ chuyên sâu trong một khâu cụ thể của pipeline sản xuất.

Pipeline sản xuất của các studio lớn được chia thành nhiều bộ phận chuyên biệt, và mỗi chuyên gia “specialist” trở thành một mắt xích quan trọng trong chuỗi sản xuất.

Tuy nhiên, khi AI generative bắt đầu bước vào lĩnh vực hình ảnh, từ video generation đến image generation, quy luật này đang thay đổi.

Tất cả các video AI generative hiện tại đều có một điểm chung chưa thể thích nghi được với mô hình sản xuất tiêu chuẩn, vốn dĩ là cái mà các doanh nghiệp tạo ra nó đang hướng tới. **Creative production luôn cần khả năng kiểm soát chi tiết và chỉnh sửa hậu kỳ**.

Sự xuất hiện của các công cụ AI tạo hình ảnh và video khiến nhiều nghệ sĩ 3D truyền thống cảm thấy bị đe dọa. Chỉ với một prompt, một hệ thống AI có thể tạo ra concept art, environment hoặc thậm chí một đoạn video ngắn. Điều này dẫn đến một sự so sánh trực tiếp giữa hai nhóm: một bên là video/image generative prompter, những người thành thạo các công cụ AI, và một bên là CG artist truyền thống, những người đã dành nhiều năm học modeling, lighting, rendering hoặc compositing.

Trong ngắn hạn, sự xuất hiện của AI có thể tạo ra cảm giác rằng nhóm thứ hai đang bị thay thế. Nhưng thực tế sâu hơn của ngành lại cho thấy điều ngược lại.

Có thực AI sẽ lấy mất job, có thật prompt chỉ một nút ra video kỳ diệu lụm lúa ? Hollywood bị tiêu diệt đến nơi ?

Ngành VFX và animation không chỉ là việc tạo ra hình ảnh; nó là một hệ thống pipeline phức tạp nơi mỗi frame được xây dựng qua nhiều bước: modeling, texturing, shading, lighting, rendering, compositing và color grading. Những bước này tồn tại để cho phép artist kiểm soát chi tiết của hình ảnh. Ví dụ, renderer sẽ xuất nhiều AOV (Arbitrary Output Variables) như diffuse, specular, shadow hoặc depth để compositor có thể chỉnh từng phần của ánh sáng sau khi render đã hoàn tất. Các hệ thống như Cryptomatte cho phép tách riêng từng object trong scene. Những công cụ này cho thấy một nguyên tắc quan trọng của ngành: creative production luôn cần khả năng kiểm soát chi tiết và chỉnh sửa hậu kỳ.

Xem thêm bài này để hiểu, lý do đằng sau của Creative Production, là huyết mạch của cả nền kinh tế kiến tạo nội dung.

Chính vì vậy, generative AI không thể đứng ngoài pipeline này. Một hình ảnh được tạo ra bởi AI có thể trông hoàn chỉnh, nhưng nếu nó không thể được tách layer, chỉnh ánh sáng hoặc tích hợp với footage thật, nó khó có thể được sử dụng trong production thực tế. Điều đó có nghĩa rằng AI chỉ thực sự trở nên hữu ích khi nó được tích hợp vào pipeline tiêu chuẩn của ngành. Và đây chính là điểm giao nhau giữa generative AI và CG truyền thống.

Với góc nhìn của đạo diễn và thị trường: khán giả, họ kết nối với một thực thể thực. Bước từ trong phim ra ngoài đời, họ muốn nó thật, cảm xúc thật. AI video gen cũng như CG có thể tạo ra bản sao số nhưng ai đi sự kiện giao lưu khán giả, ra mắt thảm đỏ và làm mấy cái video marketing social ? AI làm ? khán giả coi diễn viên cartoon ? nên đó là lý do phim luôn tuyển diễn viên tạo ra cảm xúc tốt nhất chứ không phải diễn viên đẹp nhất.

Timeline tiến hóa của compositing, rendering và khả năng điều khiển sáng tạo

Creative Control Timeline

Có thể đọc thêm bài compositing trong thế giới điện ảnh.

1930s — Walt Disney multiplane camera (Walt Disney Productions)
1950s–1960s — Saul Bass motion graphics optical compositing (Hollywood title design)
1960s–1980s — Optical compositing & matte painting era (ILM, Disney, major studios)
1988 — REYES architecture và RenderMan (Pixar)
1993 — Internal development của Nuke tại Digital Domain
1990s — Early compositing software: Flame, Shake
1993–1997 — Early CGI pipeline của ILM và Sony Pictures Imageworks
1997 — Launch của V-Ray (Chaos Group)
1993–2000 — Evolution của Disney CAPS system (Disney + Pixar)
2005–2010 — Physically based rendering và Arnold (Sony Imageworks)
2010 — GPU rendering era: OctaneRender
2012 — GPU production renderer: Redshift
2016 — OpenUSD
2020 — Real-time cinematic pipeline với Unreal Engine
2023 — Gaussian Splatting neural rendering research breakthrough
2024–2026 — Generative AI video/image pipelines tích hợp VFX workflows

1930s — Walt Disney multiplane camera (Walt Disney Productions)
Vào cuối thập niên 1930, Walt Disney phát triển multiplane camera để giải quyết một vấn đề rất cụ thể của animation thời đó: khi tất cả artwork được vẽ trên một mặt phẳng, hình ảnh trông phẳng và thiếu chiều sâu, đồng thời mỗi thay đổi nhỏ buộc artist phải vẽ lại toàn bộ cảnh; goal của hệ thống multiplane camera là cho phép chia cảnh thành nhiều lớp riêng biệt như tiền cảnh và hậu cảnh để có thể kiểm soát từng phần độc lập;
Xuất phát từ nhu cầu tạo chiều sâu điện ảnh và giảm khối lượng vẽ lại để các bộ phim như Snow White hay Bambi có thể có chuyển động camera phức tạp và không gian ba chiều, thông qua sử dụng nhiều tấm kính xếp chồng, mỗi tấm chứa một layer artwork riêng, camera quay xuyên qua các lớp đó, và chính hệ thống này vô tình đặt nền móng cho triết lý compositing layer-based của toàn bộ ngành VFX sau này.

Các lớp chi tiết được vẽ tay thêm trên tấm gương, camera sẽ quay qua tấm gương tạo hiệu ứng nhiều nhân vật hơn, nhiều khí tài hơn là bối cảnh đạo cụ hiện có. Kỹ thuật từ trước thời kỳ phim điện ảnh tiếp cận thế giới digital.

1960s–1980s — Optical compositing và matte painting (ILM, Disney)
Khi các bộ phim sci-fi và fantasy phát triển mạnh, đặc biệt sau khi Industrial Light & Magic được thành lập vào năm 1975, các studio phải giải quyết khó khăn lớn hơn: làm sao tạo ra cảnh không tồn tại ngoài đời mà vẫn giữ được quyền kiểm soát từng phần của hình ảnh; goal là tách background, foreground và effect thành nhiều lớp để có thể chỉnh sửa vì quay tất cả trong camera là không khả thi cho các bộ phim như Star Wars. Nên họ làm matte painting trên kính, blue screen compositing và optical printer layering, tất cả đều dựa trên nguyên tắc tách layer.

Phần mềm SHAKE công cụ compositing mà Apple đã “kill” sau đó NUKE và FUSION đã copy lại workflow để tạo ra hệ thống node base ngày nay. Ngoài ra chúng ta còn có FLAME cũng là một công cụ cho phép compositing real-time.

1990s — Flame và Shake compositing era
Trong cùng giai đoạn, các công cụ như Flame và Shake trở thành trung tâm của compositing digital; goal của chúng là thay thế optical compositing bằng workflow digital vì pipeline film cần iterate nhanh hơn để dùng cho broadcast, commercial và VFX. Bằng cách sử dụng layer compositing và node compositing để chỉnh từng element của frame.

Nuke đang tạo tác hậu kỳ compositing với các AOV và layer của Unreal Engine tạo ra khi render sequences.

2020 — Unreal Engine cinematic pipeline
Với Unreal Engine, Epic đã giải quyết được khó khăn về tốc độ xem ngay được thứ cần sửa, cần hiệu chỉnh trong tạo tác sáng tạo qua real-time, rất tân thời; mục tiêu là real-time lighting và cinematic preview; bởi vì offline render quá chậm và phục vụ được ngay trên sân khấu kiểu virtual production hiện nay đang rất phổ biến nhưng cũng mất một khoảng thời gian để lắp được các đòi hỏi của tiêu chuẩn “industry standard” vào pipeline hoàn thiện. Giờ đây render real-time nhưng có deferred renderer xuất AOV, layer pass ngay trong Movie Render Queue, và các file còn phải hỗ trợ Apple Prores, EXR, 10bit.

Timeline tiến hóa của AOV, render passes và compositing control

1993 — Digital compositing pipeline bắt đầu (Digital Domain / ILM)
1995 — Toy Story và RenderMan shading pipeline (Pixar)
1999 — OpenEXR concept hình thành (ILM)
2003 — OpenEXR chính thức release (ILM)
2000–2005 — AOV expansion trong renderer (Mental Ray, RenderMan, V-Ray)
2007 — Nuke commercial release (Foundry)
2010 — Deep compositing (Weta Digital)
2013 — Cryptomatte proposal (Psyop / Solid Angle)
2016 — OpenUSD layering system (Pixar)
2020 — Real-time render passes trong Unreal Engine cinematic pipeline (Epic Games)
dự đoán 2026 — AI reconstruction passes và Gaussian Splatting workflows

Sự tiến hóa của AOV và render passes: mục tiêu luôn là kiểm soát

1993 — Digital compositing pipeline bắt đầu (Digital Domain / ILM)
Vào đầu thập niên 1990, khi CGI bắt đầu được sử dụng rộng rãi trong phim, các studio như Digital Domain và Industrial Light & Magic phải đối mặt với khó khăn hoàn toàn mới: một frame CGI không chỉ là hình ảnh mà là tổng hợp của rất nhiều yếu tố ánh sáng và vật liệu; mục tiêu của pipeline lúc đó là cho phép tách các thành phần này ra để compositor có thể chỉnh sửa sau khi render vì nếu renderer chỉ xuất ra một frame final thì mỗi thay đổi nhỏ sẽ buộc phải render lại toàn bộ shot, ứng dụng chính là các bộ phim như Terminator 2 và Jurassic Park bằng cách xuất nhiều pass render riêng biệt rồi ghép lại trong compositing.

2003 — OpenEXR chính thức release (ILM)
Năm 2003, ILM chính thức phát hành OpenEXR để giải quyết khó khăn về trao đổi dữ liệu đầu cuối post process; mục tiêu là tạo tiêu chuẩn chung cho nghành công nghiệp kiến tạo nội dung vì pipeline VFX sử dụng nhiều tool khác nhau; điều nà giúp chia sẻ dữ liệu giữa renderer và compositor bằng cách tạo ra multi-layer EXR chứa AOV như diffuse, specular, depth và normals.

2007 — Nuke trở thành công cụ hậu kỳ tiêu chuẩn compositing tool
Khi Foundry phát hành thương mại Nuke, mục tiêu là cung cấp một môi trường compositing có thể xử lý hàng chục AOV cùng lúc vì pipeline VFX ngày càng phức tạp; Ứng dụng compositing film như Avatar và Harry Potter bằng cách triển khai node-based workflow xử lý multi-layer EXR.

2010 — Deep compositing (Weta Digital)
Weta Digital phát triển deep compositing để giải quyết khó khăn mới: compositing giữa nhiều lớp geometry phức tạp; mục tiêu là lưu trữ nhiều sample depth trong mỗi pixel vì Z-depth truyền thống không đủ chính xác cho volumetric effects; ứng dụng là các phim như Avatar bằng cách tạo deep EXR chứa nhiều sample per pixel.

Procedural Workflow Và Ứng Dụng Vào Lĩnh Vực VFX Animation

Ba dòng tư duy đã hình thành nền tảng của các pipeline sáng tạo hiện đại. Thứ nhất là dataflow programming (1960–1970), nơi chương trình được mô tả như một mạng lưới node mà dữ liệu chảy qua từng bước xử lý, thay vì chạy tuần tự; đây là cơ sở của mọi node graph trong các công cụ hiện nay. Thứ hai là procedural generation (1970–1980), tập trung mô tả quy trình tạo ra đối tượng bằng thuật toán thay vì tạo trực tiếp từng chi tiết, cho phép thay đổi tham số để sinh ra vô số biến thể. Thứ ba là object-oriented programming (1980–1990), cung cấp kiến trúc module hóa để các thành phần phần mềm có thể kết nối và mở rộng. Khi ba tư duy này kết hợp, chúng tạo nên procedural pipeline của các phần mềm như Houdini, Nuke, Blender Geometry Nodes hay ComfyUI ngày nay.

Giao diện của phần mềm mã nguồn mở Comfy UI *(đọc là “com phi diu ai” – Comfy UI là gì?)* thực tế là một cái thin client để kéo thả các module của **[AI model tạo và biên tập hình ảnh video]** vào theo dạng operator để có thể xử lý ra kết quả khi nhận yêu cầu từ input. Và cứ thế nối các operator với nhau như những cỗ máy nhỏ lắp ráp Lego cho đến khi thỏa mãn. *(input -> operator -> output)*

Điều này cho thấy một điểm quan trọng: pipeline VFX không được xây dựng để tạo hình ảnh nhanh nhất, mà để cho phép kiểm soát chi tiết nhất. Mỗi bước trong pipeline tồn tại vì nó cung cấp một mức độ kiểm soát mới. Render passes cho phép tách object. Cryptomatte cho phép isolate material. Deep compositing cho phép xử lý volumetric depth. OpenUSD cho phép layer scene graph. Tất cả những công nghệ này đều được phát triển để giải quyết cùng một khó khăn: nghệ sĩ cần khả năng chỉnh sửa bất kỳ phần nào của hình ảnh mà không phá hủy toàn bộ hệ thống.

Chính vì vậy mà khi generative AI xuất hiện, nó lập tức gặp phải một vấn đề cơ bản. Output của AI thường là một hình ảnh hoàn chỉnh nhưng thiếu cấu trúc. Nó không có AOV, không có object ID, không có layer. Điều này khiến AI trở thành một “black box”. Trong môi trường production, black box là điều cực kỳ nguy hiểm. Nếu director muốn thay đổi ánh sáng trên một nhân vật, hoặc compositor muốn điều chỉnh reflection trên một bề mặt, việc chỉ có một frame final image là không đủ. Toàn bộ pipeline được xây dựng để tránh chính xác tình huống này.

Đây là lý do tại sao các công cụ như ComfyUI trở nên quan trọng. Thay vì để AI generation là một hành động đơn lẻ, ComfyUI biến toàn bộ quá trình generation thành một graph node. Mỗi bước của pipeline, loading model, encoding prompt, sampling noise, decoding latent, được biểu diễn bằng một node riêng. Creator có thể chỉnh sửa bất kỳ node nào trong graph. Điều này biến AI từ một black box thành một hệ thống procedural. Và khi nhìn vào điều này, ta nhận ra rằng ComfyUI thực chất đang làm điều tương tự như Houdini đã làm trong lĩnh vực FX simulation hơn hai thập kỷ trước.

Điều gì tới cũng phải tới, Comfy UI được rất nhiều compositor thấy đây là lựa chọn để áp dụng AI generative tuyệt vời vào trong pipeline hiện có, tức nếu thành thạo pipeline hiện có, AI tool thêm vào là tăng tốc tới bất ngờ vì nó giúp “creative control” tối đa.

Houdini được xây dựng hoàn toàn trên triết lý procedural generation. Thay vì tạo asset trực tiếp, artist tạo ra một hệ thống mô tả cách asset được tạo ra. Điều này cho phép họ quay lại bất kỳ bước nào trong pipeline và thay đổi tham số. Workflow này mang lại hai lợi ích lớn: khả năng kiểm soát chi tiết và khả năng tái sử dụng hệ thống. Khi Blender giới thiệu Geometry Nodes và Autodesk phát triển Bifrost, họ đang tiếp tục mở rộng triết lý procedural này sang nhiều lĩnh vực khác của DCC.

Điều này dẫn đến một kết luận quan trọng: AI không thể tồn tại lâu dài như một hệ thống black box. Để được sử dụng trong production, nó phải được modular hóa. Nó phải cho phép creator chỉnh từng bước của pipeline generation. Điều đó có nghĩa là generative AI cuối cùng sẽ tiến hóa thành các hệ thống node-based tương tự Houdini, Nuke hoặc Bifrost.

Khi điều này xảy ra, vai trò của creator sẽ thay đổi. Thay vì chỉ tạo asset, họ sẽ thiết kế pipeline tạo asset. Thay vì vẽ từng frame, họ sẽ xây dựng hệ thống sinh ra frame. Đây chính là vai trò của pipeline architect, technical pipeline, technical artist.

Sử dụng Comfy UI để tăng tốc render, thay đổi chỉnh sửa creative control tối đa qua pipeline CG

Các Studios Đang Kế Hoạch Và Đã Làm Gì ?

Trong bối cảnh đó, các studio lớn đã bắt đầu thay đổi cách nhìn về nhân lực. Một ví dụ điển hình là Industrial Light & Magic (ILM), một trong những studio VFX hàng đầu thế giới. Trong nhiều năm gần đây, ILM ngày càng nhấn mạnh vai trò của generalist artist, những người không chỉ giỏi một kỹ năng duy nhất mà có thể hiểu nhiều phần khác nhau của pipeline. Generalist không thay thế specialist, nhưng họ đóng vai trò kết nối giữa các department. Họ có thể modeling, lighting, compositing và thậm chí làm việc với real-time engine hoặc AI tools.

Thực tế ra mô hình Generalist mà ILM phát triển cho hệ thống nhân lực, đây là một cú thay đổi về mô hình quản trị, với mục tiêu là thay đổi thời gian phản hồi sản xuất, sở hữu một đội hình hùng hậu với cấu trúc tuyến tính về bố trí nhân lực là điểm nghẽn khổng lồ cho sản xuất nội dung.
Mô hình ma trận cấu trúc quản trị kết hợp với chống lãng phí qua đầu tư vai trò ngang thay vì tập trung nguồn lực vào nghành dọc, bố trí tuyến dọc lại thành dạng Vertical Specialist nên điển hình nhiều năm gần đây ILM chỉ còn tuyển senior cho các vị trí thật sự cần chuyên gia.
Điều này giúp giảm thiểu chi phí điều hành đáng kể cho cỗ máy khổng lồ của ILM và việc sản xuất dựa trên kinh tế theo dự án có thể cải thiện được vốn rất lớn.

Không chỉ lợi thế về tài chính mà còn là tốc độ thay đổi các ý tưởng sáng tạo giờ đây cũng đáp ứng vô cùng nhanh. Creative Control không chỉ qua công cụ, qua kỹ nghệ mà còn phải qua cả mô hình quản trị và mô hình kinh doanh kết hợp.

Trong lĩnh vực Tech, có các vị trí generalist luôn đòi hỏi Full Stack. Về mặt ý tưởng theo một chủ đề nhiệm vụ là hoàn toàn tương tự.

Sự chuyển dịch này tạo ra một hiện tượng thú vị: ranh giới giữa generative prompter và CG artist truyền thống bắt đầu mờ đi. Trong ngắn hạn, cả hai nhóm đều có thể cảm thấy bất ổn. CG artist lo rằng AI sẽ thay thế kỹ năng của họ, trong khi AI prompter lại gặp khó khăn khi cố gắng đưa output của mình vào pipeline production chuyên nghiệp. Nhưng trong trung hạn, những người hiểu được pipeline của ngành, từ render passes, compositing đến integration với các công cụ mới, sẽ có lợi thế lớn.

Gần đây studios lớn toàn cầu như Framestore cũng tung ra showreel của các phim mới họ làm, gần như đều có flash một vài frame thấy giao diện của ComfyUI đang hoạt động. Các Technical Artist và compositor của các major studios khác cũng liên tục share course học và làm với Nuke và Comfy UI.

Nói cách khác, người nổi bật trong kỷ nguyên AI không phải là người giỏi nhất ở một công cụ cụ thể, mà là người có thể kết nối công cụ mới với hệ thống production hiện có. Họ hiểu cách một video/image generator có thể trở thành một bước trong pipeline VFX, cách output của AI có thể được chuyển thành layer để compositing, hoặc cách một asset được tạo bởi AI có thể được đưa vào scene 3D.

Sự thay đổi này cho thấy một điều rõ ràng: “nhất nghệ tinh nhất vinh quang” không còn đủ trong ngành sáng tạo hiện đại. Thay vào đó, giá trị nằm ở khả năng hiểu hệ thống và kết nối nhiều kỹ năng khác nhau. Trong kỷ nguyên AI, người chiến thắng không phải là specialist thuần túy hay prompter thuần túy, mà là những người có thể đứng ở giao điểm của cả hai, những creator hiểu pipeline và biết cách biến công nghệ mới thành một phần của nó.

Trong môi trường production VFX và animation, bất kỳ hệ thống AI video generation nào cuối cùng cũng phải thích nghi với pipeline tiêu chuẩn của ngành, nơi mọi hình ảnh cần được tách layer, depth và pass để cho phép creative control trong compositing và lighting. Điều này có nghĩa rằng AI không thể chỉ tạo ra video “final frame”, mà phải cung cấp dữ liệu có cấu trúc tương thích với workflow hiện có. Một trong những hướng công nghệ đáng chú ý là Gaussian Splatting, vì nó cho phép tái tạo geometry và depth từ hình ảnh hoặc video do AI tạo ra, từ đó có thể tích hợp vào pipeline compositing giống như depth pass hoặc scene reconstruction. Tuy nhiên, nhiều khả năng Gaussian Splatting sẽ đóng vai trò cầu nối giữa AI generation và pipeline 3D truyền thống, thay vì thay thế hoàn toàn các representation như mesh hoặc USD scene graph.

Xem thêm, 3D reconstruction Gaussian Splatting là gì ?

Làm Phim Quảng Cáo

Khi AI bước vào VFX & Animation: “Nhất nghệ tinh nhất vinh quang” không còn đủ

Timeline tiến hóa của compositing, rendering và khả năng điều khiển sáng tạo

Timeline tiến hóa của AOV, render passes và compositing control

Sự tiến hóa của AOV và render passes: mục tiêu luôn là kiểm soát

Procedural Workflow Và Ứng Dụng Vào Lĩnh Vực VFX Animation

Các Studios Đang Kế Hoạch Và Đã Làm Gì ?

Post Author: Vu Pham

Khi AI bước vào VFX & Animation: “Nhất nghệ tinh nhất vinh quang” không còn đủ

Timeline tiến hóa của compositing, rendering và khả năng điều khiển sáng tạo

Timeline tiến hóa của AOV, render passes và compositing control

Sự tiến hóa của AOV và render passes: mục tiêu luôn là kiểm soát

Procedural Workflow Và Ứng Dụng Vào Lĩnh Vực VFX Animation

Các Studios Đang Kế Hoạch Và Đã Làm Gì ?

Post Author: Vu Pham

Bài viết liên quan

NVIDIA DLSS 5 Sử Dụng Sức Mạnh Của AI Tái Tạo Đồ Họa Siêu Thực Cho Game

Cách Mà Seedance Vượt Qua Giới Hạn Xử Lý Tính Nhất Quán Hình Ảnh Video

Comfy-UI Giữ Hình Ảnh Nhất Quán Cho Thương Mại

Comfy-UI Làm Sao Giữ Tính Nhất Quán Hình Ảnh – Consistency

Comfy-UI Là Gì Trong Tạo Và Chỉnh Sửa Hình Ảnh, Video Do AI Generative