字節(jié)跳動的研究人員近日展示了一款 AI 模型,可以通過一張圖片和一段音頻生成半身、全身視頻。
字節(jié)跳動表示,和一些只能生成面部或上半身動畫的深度偽造技術(shù)不同,OmniHuman-1 能夠生成逼真的全身動畫,且能將手勢和面部表情與語音或音樂精準(zhǔn)同步。
字節(jié)跳動在其 OmniHuman-lab 項目頁面發(fā)布了多個測試視頻,包括 AI 生成的 TED 演講和一個會說話的阿爾伯特 愛因斯坦。
在周一發(fā)布的一篇論文中,字節(jié)跳動指出,OmniHuman-1 模型支持不同的體型和畫面比例,從而使視頻效果更自然。
據(jù)了解,字節(jié)跳動表示,OmniHuman-1 模型基于約 19000 小時的人類運動數(shù)據(jù)訓(xùn)練而成,能夠在內(nèi)存限制內(nèi)生成任意長度的視頻,并適應(yīng)不同的輸入信號。
研究人員還表示,OmniHuman-1 在真實性和準(zhǔn)確性方面,超越了其他同類動畫工具。目前,該工具暫不提供下載或有關(guān)服務(wù)。