ByteDance giới thiệu mô hình AI mới OmniHuman-1, tạo ra các hoạt ảnh toàn thân thực tế

ByteDance ra mắt mô hình OmniHuman-1
Vào ngày 6 tháng 2, các nhà nghiên cứu của ByteDance gần đây đã giới thiệu một mô hình AI có thể tạo ra video một nửa cơ thể và toàn thân từ một hình ảnh và đoạn âm thanh.
Hoạt ảnh toàn thân và đồng bộ chính xác
ByteDance cho biết, khác với một số công nghệ deepfake chỉ tạo ra hoạt ảnh khuôn mặt hoặc phần trên cơ thể, OmniHuman-1 có thể tạo ra hoạt ảnh toàn thân thực tế và đồng bộ chính xác các cử chỉ và biểu cảm khuôn mặt với giọng nói hoặc âm nhạc.
Giới thiệu dự án và ứng dụng
ByteDance đã đăng tải một số video thử nghiệm trên trang dự án OmniHuman-lab của mình, bao gồm các bài diễn thuyết TED được tạo bởi AI và một Albert Einstein biết nói. Trong một bài báo phát hành vào thứ Hai, ByteDance chỉ ra rằng mô hình OmniHuman-1 hỗ trợ các kiểu cơ thể và tỷ lệ khung hình khác nhau, giúp tạo ra hiệu ứng video tự nhiên hơn.
Huấn luyện mô hình và hiệu suất
Theo IT Home, ByteDance cho biết mô hình OmniHuman-1 được huấn luyện từ khoảng 19.000 giờ dữ liệu chuyển động của con người, cho phép nó tạo ra video bất kỳ độ dài nào trong giới hạn bộ nhớ và thích ứng với các tín hiệu đầu vào khác nhau. Các nhà nghiên cứu cũng cho biết OmniHuman-1 vượt trội hơn các công cụ hoạt ảnh khác về độ chân thực và độ chính xác.
Hiện không có sẵn để tải về hoặc dịch vụ
Hiện tại, công cụ này chưa có sẵn để tải về hoặc sử dụng dịch vụ.
Kết luận
Mô hình OmniHuman-1 của ByteDance, tạo ra các hoạt ảnh toàn thân thực tế từ hình ảnh và âm thanh, thể hiện sự đổi mới và đột phá của công ty trong công nghệ AI. OmniHuman-1 không chỉ đồng bộ chính xác các cử chỉ và biểu cảm khuôn mặt, mà còn hỗ trợ các kiểu cơ thể và tỷ lệ khung hình khác nhau, cung cấp sự hỗ trợ kỹ thuật mạnh mẽ để tạo ra các hiệu ứng video tự nhiên. Mặc dù công cụ chưa được phát hành để tải về hoặc sử dụng dịch vụ, nhưng hiệu suất của nó về độ chân thực và độ chính xác đã thu hút được sự chú ý rộng rãi và sự mong đợi.