字節跳動展示全新 AI 模型 OmniHuman-1,生成逼真全身動畫
字節跳動推出 OmniHuman-1 模型
2 月 6 日消息,字節跳動的研究人員近日展示了一款 AI 模型,可以通過一張圖片和一段音頻生成半身、全身視頻。
全身動畫與精準同步
字節跳動表示,與一些只能生成面部或上半身動畫的深度偽造技術不同,OmniHuman-1 能夠生成逼真的全身動畫,並能將手勢和面部表情與語音或音樂精準同步。
項目展示與應用
字節跳動在其 OmniHuman-lab 項目頁面發布了多個測試視頻,包括 AI 生成的 TED 演講和一個會說話的阿爾伯特・愛因斯坦。在周一發布的一篇論文中,字節跳動指出,OmniHuman-1 模型支持不同的體型和畫面比例,從而使視頻效果更自然。
模型訓練與性能
據 IT之家了解,字節跳動表示,OmniHuman-1 模型基於約 19000 小時的人類運動數據訓練而成,能夠在內存限制內生成任意長度的視頻,並適應不同的輸入信號。研究人員還表示,OmniHuman-1 在真實性和準確性方面超越了其他同類動畫工具。
暫不提供下載或服務
目前,該工具暫不提供下載或有關服務。
結論
字節跳動展示的 OmniHuman-1 模型,通過圖片和音頻生成逼真的全身動畫,展現了該公司在 AI 技術領域的創新和突破。OmniHuman-1 不僅能夠精準同步手勢和面部表情,還支持不同體型和畫面比例,為生成自然的視頻效果提供了強大的技術支持。儘管目前工具尚未開放下載或服務,但其在真實性和準確性方面的表現已經引起了廣泛關注和期待。