字節跳動展示全新 AI 模型 OmniHuman-1，生成逼真全身動畫

字節跳動推出 OmniHuman-1 模型
2 月 6 日消息，字節跳動的研究人員近日展示了一款 AI 模型，可以通過一張圖片和一段音頻生成半身、全身視頻。
全身動畫與精準同步
字節跳動表示，與一些只能生成面部或上半身動畫的深度偽造技術不同，OmniHuman-1 能夠生成逼真的全身動畫，並能將手勢和面部表情與語音或音樂精準同步。
項目展示與應用
字節跳動在其 OmniHuman-lab 項目頁面發布了多個測試視頻，包括 AI 生成的 TED 演講和一個會說話的阿爾伯特・愛因斯坦。在周一發布的一篇論文中，字節跳動指出，OmniHuman-1 模型支持不同的體型和畫面比例，從而使視頻效果更自然。
模型訓練與性能
據 IT之家了解，字節跳動表示，OmniHuman-1 模型基於約 19000 小時的人類運動數據訓練而成，能夠在內存限制內生成任意長度的視頻，並適應不同的輸入信號。研究人員還表示，OmniHuman-1 在真實性和準確性方面超越了其他同類動畫工具。
暫不提供下載或服務
目前，該工具暫不提供下載或有關服務。
結論
字節跳動展示的 OmniHuman-1 模型，通過圖片和音頻生成逼真的全身動畫，展現了該公司在 AI 技術領域的創新和突破。OmniHuman-1 不僅能夠精準同步手勢和面部表情，還支持不同體型和畫面比例，為生成自然的視頻效果提供了強大的技術支持。儘管目前工具尚未開放下載或服務，但其在真實性和準確性方面的表現已經引起了廣泛關注和期待。