Photogrammetry, NeRF, and Gaussian Splatting là các kỹ thuật tái tạo mô hình 3D từ thực tế hiện nay. Những kỹ thuật này khi ứng dụng vào đời sống sẽ gắn liền với thực tế, phức tạp triển khai và qui mô của mục đích thực hiện.
Tuy nhiên chắc cần biết Photogrammetry được coi là một kỹ thuật hiện hành, và sẽ sớm bị thay thế. Xem về 3D Reconstruction ở đây trong bài này để hiểu đó là gì.
Photogrammetry
Photogrammetry là một trong những phương pháp lâu đời nhất để tạo mô hình 3D từ ảnh chụp thực tế. Nó hoạt động bằng cách phân tích nhiều ảnh chụp từ các góc độ khác nhau để tái tạo hình học của một vật thể hoặc cảnh trong không gian 3D.
- Cách hoạt động:
Photogrammetry sử dụng các thuật toán để tìm điểm chung giữa các ảnh và tính toán vị trí của chúng trong không gian 3D. Sau đó, nó tạo ra một đám mây điểm (point cloud), từ đó xây dựng một lưới đa giác (mesh) và áp dụng texture dựa trên ảnh gốc. - Ưu điểm:
- Độ chính xác cao trong việc tái tạo hình học của vật thể hoặc cảnh.
- Được sử dụng rộng rãi trong các ngành như khảo cổ học, kiến trúc, và sản xuất phim nhờ tính đáng tin cậy.
- Dễ tiếp cận với phần mềm như Agisoft Metashape hoặc RealityCapture, cùng với các thiết bị như máy ảnh hoặc drone.
- Nhược điểm:
- Yêu cầu số lượng lớn ảnh chất lượng cao để đạt kết quả tốt.
- Có thể gặp khó khăn với các bề mặt phản chiếu (reflective surfaces), trong suốt (transparent), hoặc thiếu texture rõ ràng.
- Quá trình xử lý tốn thời gian và đòi hỏi phần cứng mạnh mẽ.
- Ứng dụng:
Photogrammetry lý tưởng cho việc scan các vật thể hoặc môi trường cần độ chính xác cao về hình học, chẳng hạn như di tích lịch sử hoặc địa hình trong trò chơi điện tử.
Xem video nói về Photogrammetry và Lidar
NeRF (Neural Radiance Fields)
NeRF là một công nghệ mới hơn, sử dụng trí tuệ nhân tạo để tạo mô hình 3D từ ảnh 2D. Không giống như photogrammetry, nó tập trung vào việc tái tạo trường bức xạ (radiance field) của cảnh, cho phép hiển thị từ mọi góc nhìn.
- Cách hoạt động:
NeRF sử dụng mạng nơ-ron sâu (deep neural network) để học cách ánh sáng tương tác với cảnh từ một tập hợp ảnh đầu vào. Nó dự đoán màu sắc và mật độ thể tích (volume density) tại mọi điểm trong không gian 3D, sau đó hiển thị cảnh bằng cách sử dụng volume rendering. - Ưu điểm:
- Tạo ra hình ảnh cực kỳ chân thực (photorealistic), đặc biệt với các bề mặt phản chiếu hoặc trong suốt mà photogrammetry không xử lý tốt.
- Có thể tái tạo các cảnh phức tạp với chi tiết ánh sáng tinh tế.
- Không cần tạo mesh, giảm bớt một bước trong quy trình.
- Nhược điểm:
- Quá trình huấn luyện chậm, thường mất vài giờ hoặc vài ngày.
- Yêu cầu phần cứng mạnh, chẳng hạn như GPU cao cấp. (nên Nvidia đã tạo ra một phiên bản riêng sử dụng được cách tính toán theo mạng neuron AI nhỏ hơn, gọi là Instant NeRF, giảm tới mức có thể chỉ còn vài phút tính toán tùy theo độ phức tạp đầu vào)
- Khó chỉnh sửa hoặc tương tác với mô hình sau khi tạo, vì nó không tạo ra mesh truyền thống.
- Ứng dụng:
NeRF phù hợp cho các ứng dụng cần hình ảnh chất lượng cao, như hiệu ứng hình ảnh trong phim (VFX), nơi mà sự chân thực về ánh sáng quan trọng hơn hình học chính xác.
Xem video về NeRF chỉ trong 2 phút để thấy nó là gì thực tế
Gaussian Splatting
Gaussian Splatting là một phương pháp mới hơn nữa, kết hợp một số ưu điểm của photogrammetry và NeRF, tập trung vào hiệu suất hiển thị theo thời gian thực (real-time rendering).
- Cách hoạt động:
Gaussian Splatting biểu diễn cảnh dưới dạng tập hợp các hàm Gaussian 3D (3D Gaussian functions), mỗi hàm có vị trí, kích thước, màu sắc và độ trong suốt. Các Gaussian này được huấn luyện để khớp với ảnh đầu vào, sau đó được hiển thị bằng cách sử dụng kỹ thuật splatting (chiếu và trộn). - Ưu điểm:
- Tốc độ hiển thị nhanh, phù hợp cho các ứng dụng thời gian thực như trò chơi hoặc thực tế ảo (VR).
- Chất lượng hình ảnh cao, tương tự NeRF, nhưng với chi phí tính toán thấp hơn.
- Xử lý tốt các bề mặt phản chiếu và chi tiết phức tạp.
- Nhược điểm:
- Vẫn đang trong giai đoạn phát triển, với ít công cụ thân thiện với người dùng hơn so với photogrammetry.
- Có thể tạo ra artifacts ở các vùng có ít dữ liệu ảnh.
- Yêu cầu dữ liệu đầu vào chính xác, bao gồm vị trí camera (camera poses).
- Ứng dụng:
Gaussian Splatting lý tưởng cho các ứng dụng cần hiển thị nhanh và chất lượng cao, như môi trường VR hoặc mô phỏng tương tác.
GS Splatting là video real-time ngay trong Unreal Engine 5, hãy tưởng tượng không chỉ ứng dụng mạnh mẽ trong thế giới diễn họa kiến trúc, mà nó còn có thể tạo NPC cho video game thông qua việc tái tạo được cả 3D từ video
So sánh
Đặc điểm | Photogrammetry | NeRFs | Gaussian Splatting |
---|---|---|---|
Hình ảnh | Tốt về hình dạng | Rất đẹp về ánh sáng | Đẹp, cân bằng |
Tốc độ | Chậm | Rất chậm | Nhanh hơn NeRFs |
Chỉnh sửa | Dễ (có mesh) | Khó (không có mesh) | Khó (không có mesh) |
Dùng trong VR/AR | Scan thế giới thật | Cảnh đẹp để xem | Xem ngay không chờ |
Kết luận
- Photogrammetry tốt khi cần mô hình để chỉnh sửa và dùng trong VR hay AR.
- NeRFs tốt để làm cảnh đẹp để xem, nhưng không thể thay đổi nhiều.
- Gaussian Splatting tốt khi muốn xem cảnh nhanh trong VR hoặc AR.