Cách Sử Dụng Comfy-UI Biên Tập Hình Ảnh Với AI Image Generative

Các mô hình sẽ được đưa vào làm node operator trong video tutorial:

Qwen Image Edit 2511
Qwen Image Edit 2511 Lightning 4-Step LoRA
Qwen 2.5 7B VL (text encoder)
Qwen Image VAE
Custom GGUF builds for efficient local inference

Mô hình công việc cách chứa các model cần dùng cho app Comfy-UI như sau

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   ├── 📂 loras/
│   │      └── Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors
│   ├── 📂 diffusion_models/
│   │      └── qwen_image_edit_2511_fp8mixed.safetensors
│   ├── 📂 unet/
│   │      └── Qwen-Image-Edit-2511-XX-X.gguf
│   └── 📂 vae/
│          └── qwen_image_vae.safetensors

Quy trình trong video này thực chất là một pipeline rất rõ ràng, có thể hình dung như một “cây” đi từ input → xử lý → output. Bắt đầu từ model stage, nơi load toàn bộ “bộ não” (model, LoRA, VAE, text encoder). Đây là bước nền tảng vì mọi thứ phía sau đều phụ thuộc vào nó. Sau đó chuyển sang prompt stage, nơi định nghĩa mục tiêu chỉnh sửa (ví dụ: đổi texture, giữ khuôn mặt, ghép 2 người…). Tiếp theo là input stage, nơi đưa ảnh gốc hoặc nhiều ảnh reference vào. Cuối cùng là sampling stage, nơi toàn bộ dữ liệu được “nấu” lại để tạo ra ảnh mới. Nếu vẽ thành cây: Model → Prompt → Input → Sampler → Output, trong đó sampler là “trái tim” xử lý.

Mục đích của việc tách step như vậy là để kiểm soát từng phần của quá trình tạo ảnh. Model quyết định khả năng, prompt quyết định ý định, input quyết định dữ liệu gốc, còn sampler quyết định cách biến đổi. Mỗi bước có một mục tiêu riêng: đảm bảo consistency (giữ khuôn mặt), đảm bảo logic (ghép nhiều người đúng tỷ lệ), và đảm bảo realism (ánh sáng, vật liệu). Kết quả mong đợi là ảnh output vừa “đúng ý” vừa “đúng vật lý” – tức là không chỉ đẹp mà còn hợp lý về hình học, ánh sáng và ngữ cảnh.

Lý do phải làm theo pipeline này là vì AI diffusion không phải là một thao tác đơn lẻ, mà là quá trình biến đổi có kiểm soát. Nếu không tách bước, bạn sẽ mất khả năng debug: không biết lỗi nằm ở prompt, model hay input. Việc chia rõ từng stage giúp bạn điều chỉnh chính xác – ví dụ: sai khuôn mặt → chỉnh prompt hoặc reference; sai ánh sáng → chỉnh model hoặc LoRA. Đây chính là tư duy production pipeline, không phải chỉ “generate thử”.

Về bản chất, nó có giống Photoshop nhưng ở level khác. Photoshop là chỉnh sửa trực tiếp (pixel-level, deterministic), còn pipeline này là tái tạo (regenerative). Ví dụ: thay texture trong Photoshop là mask + blend, còn ở đây là AI “hiểu” texture và dựng lại toàn bộ bề mặt sao cho khớp ánh sáng và hình học. Tuy nhiên, logic lại rất giống: cũng có input (ảnh), layer/mask (reference), adjustment (prompt), và render (output). Điểm khác biệt lớn là ComfyUI mang tính procedural và non-destructive – bạn có thể thay đổi bất kỳ bước nào và re-run toàn bộ hệ thống, thay vì chỉnh tay từng chi tiết như Photoshop.

Post Author: Vu Pham