字节跳动展示全新 AI 模型 OmniHuman-1,生成逼真全身动画

字节跳动推出 OmniHuman-1 模型

2 月 6 日消息,字节跳动的研究人员近日展示了一款 AI 模型,可以通过一张图片和一段音频生成半身、全身视频。

全身动画与精准同步

字节跳动表示,与一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,并能将手势和面部表情与语音或音乐精准同步。

项目展示与应用

字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频,包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特・爱因斯坦。在周一发布的一篇论文中,字节跳动指出,OmniHuman-1 模型支持不同的体型和画面比例,从而使视频效果更自然。

模型训练与性能

据 IT 之家了解,字节跳动表示,OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。研究人员还表示,OmniHuman-1 在真实性和准确性方面超越了其他同类动画工具。

暂不提供下载或服务

目前,该工具暂不提供下载或有关服务。

结论

字节跳动展示的 OmniHuman-1 模型,通过图片和音频生成逼真的全身动画,展现了该公司在 AI 技术领域的创新和突破。OmniHuman-1 不仅能够精准同步手势和面部表情,还支持不同体型和画面比例,为生成自然的视频效果提供了强大的技术支持。尽管目前工具尚未开放下载或服务,但其在真实性和准确性方面的表现已经引起了广泛关注和期待。