在北京市大兴区,一场聚焦全球化与人工智能的盛会于2024年12月6日至7日隆重举行——2024T-EDGE创新大会暨钛媒体财经年会。本次大会以“全力投入全球化,全力投入AI”为主题,汇聚了全球科技和商业领域的顶尖领袖,共同探索企业全球化增长的新格局与新趋势,以及AI技术如何深刻影响全球各行各业。
在影视制作领域,视频生成技术一直是挑战与机遇并存。尤其是人物的面部、嘴型、表情和肢体动作的精准捕捉,稍有差池便会导致失真。要达到好莱坞级别的视觉效果,往往需要投入巨大的人力物力。然而,随着生成式AI技术的蓬勃发展,这一难题正逐步得到解决。
2023年8月,MARZ(Monsters Aliens Robot Zombies)——一家知名的视觉效果工作室和AI技术初创公司,推出了其新一代AI视效产品LipDub。这款产品旨在解决影视配音中口型不同步的问题,为好莱坞电影公司和广告商提供了提升观众收视率和参与度的利器。
LipDub的研发团队由MARZ首席科学家、特拉维夫大学计算机科学系知名教授Danny Cohen-Or领衔。Cohen-Or教授不仅是ACM研究员,还担任Isaias Nizri视觉计算主席。他与西蒙弗雷泽大学助理教授Ali Mahdavi-Amiri长期合作,共同领导MARZ的AI研究团队。他们的首个AI解决方案Vanity AI,已于2023年1月推出,并成功应用于45部好莱坞作品中,如通过AI美妆技术为人物面部皱纹进行年轻化处理。
在12月7日的演讲中,LipDub CEO Jonathan Bronfman详细阐述了LipDub的技术原理及其在各行业的应用场景。他指出,生成式AI技术已经发展到文生图、图生视频的阶段,使得营销人员和内容创作者能够在短时间内(仅需约10分钟)生成视频,快速验证效果。
Bronfman强调,尽管视频内容生成技术带来了诸多便利,但挑战依然存在——即速度慢且成本高。然而,随着技术的不断进步,用户现在可以在几分钟内生成高质量的视频,并且这些视频素材可以重复使用。这极大地提升了视频内容的生产效率。
LipDub的口形同步技术(Lip Sync)采用了三种方案:直接视频翻译、定制虚拟形象对话调整和基于语料的角色量身定制。这些方案不仅解决了口型不同步的问题,还能够在跨语言转换过程中保持原始人物/角色的情感和表演风格。
Bronfman还提到,好莱坞影视画面的要求极高,不仅要求口型同步,还要求动态和饱满的情绪表达。因此,LipDub在模型训练中加入了大量真实人物和CG角色的数据,以确保对原始表演的1比1还原。
目前,LipDub已经推出了beta版,并计划在今年年底取得新的进展。除了服务于好莱坞电影外,LipDub还广泛应用于广告、在线教育、企业宣传片等多个领域。在在线教育领域,LipDub的口形同步技术为学生提供了更加真实的听课体验。
Bronfman在演讲的最后展示了LipDub的新功能——替换对话框(Replace Dialogue)。这一功能类似于文本到语音的转换,但更加灵活和准确。用户可以根据需要修改对话内容,并确保跨语言转换后的情感和语气保持一致。