Một trong những thách thức lớn nhất của generative AI không nằm ở việc tạo ra hình ảnh đẹp, mà là giữ được tính nhất quán của nhân vật (character consistency) qua nhiều frame, nhiều bối cảnh và nhiều góc máy. Nội dung video cho thấy rõ rằng consistency không phải đến từ một prompt tốt, mà đến từ cách bạn xây dựng pipeline và dữ liệu đầu vào. Khi chỉ dùng text-to-image, mỗi lần generate là một lần “reset xác suất”, khiến khuôn mặt, tỷ lệ cơ thể, hoặc đặc điểm nhận diện bị thay đổi.
Vì vậy, yếu tố cốt lõi đầu tiên là phải chuyển từ text-based sang image-conditioned workflow — tức là luôn có một “anchor image” làm điểm tham chiếu xuyên suốt.
Yếu tố thứ hai là sử dụng instruction-based models hoặc VLM (Vision-Language Models) như Gemini Flash hay các model như Qwen ImageEdit. Những model này không chỉ tạo ảnh mà còn “hiểu” hình ảnh đầu vào, từ đó chỉnh sửa hoặc biến thể mà vẫn giữ identity. Đây là bước tiến quan trọng so với diffusion thuần túy, vì AI không còn đoán từ text mà đang “bám” vào dữ liệu thị giác có sẵn. Khi bạn feed cùng một image vào nhiều lần với các prompt khác nhau (góc máy, ánh sáng, pose), bạn đang tạo ra một dataset đa dạng nhưng vẫn giữ consistency.
Yếu tố thứ ba là batching và parallel generation. Thay vì generate từng ảnh một cách tuần tự, workflow trong video cho thấy việc chạy nhiều prompt cùng lúc giúp tạo ra một “character sheet” — tập hợp nhiều biến thể của cùng một nhân vật trong các bối cảnh khác nhau. Điều này cực kỳ quan trọng nếu bạn muốn tiến tới training LoRA hoặc xây dựng storytelling pipeline, vì consistency không đến từ một ảnh hoàn hảo mà đến từ phân phối nhiều ảnh nhất quán.
Một yếu tố khác thường bị bỏ qua là prompt design ở cấp độ hệ thống, không phải từng câu lẻ. Việc dùng LLM để tự động generate nhiều prompt khác nhau (nhưng giữ nguyên subject) giúp mở rộng không gian sáng tạo mà không phá vỡ identity. Đây giống như “shotgun approach”: bắn nhiều khả năng khác nhau, sau đó chọn ra những kết quả giữ được nhân vật tốt nhất. Theo thời gian, bạn sẽ học được pattern nào giúp model giữ mặt, giữ form, và pattern nào làm drift.
Cuối cùng, consistency thực chất là một vấn đề của data loop. Khi bạn có thể lấy output làm input (feedback loop), hoặc build dataset từ nhiều góc nhìn, bạn đang tiến gần hơn tới việc “định nghĩa” nhân vật trong latent space. Điều này mở ra khả năng không chỉ tạo ảnh, mà còn làm animation, storyboard, thậm chí là world-building.
Nếu chưa biết cách cài đặt Comfy-UI cho người mới bắt đầu tạo và biên tập hình ảnh với AI generative thì đây là một số liên kết:
- Tutorial hướng dẫn cách tạo hình ảnh Comfy-UI để bán hàng thương mại điện tử
- Cách sử dụng Comfy-Ui cho người mới, có 11 node cần biết để tiện thao tác
- Cách cài đặt chỉ trong 5 phút là có Comfy-UI dùng
- Mở rộng cài thêm các node trên internet với công cụ quản lý node
- Cách mà Seedance đã giữ tính nhất quán consistency cho video

