字节跳动旗下的即梦AI近日在官方社交媒体平台上揭晓了一项即将上线的新功能,通过一段引人入胜的预告视频,向公众展示了其最新研发的多模态视频生成模型——OmniHuman。该技术的问世,预示着用户仅需凭借一张图片和一段音频,便能轻松制作出栩栩如生、质量上乘的AI视频,这无疑将为AI短片制作领域带来一场效率与质量的双重革命。
据OmniHuman的技术主页介绍,这一模型由字节跳动自主研发,并采用了闭源策略,确保了技术的独特性和安全性。它支持多种尺寸的图片输入,无论是肖像、半身还是全身照,都能根据用户提供的音频内容,让视频中的人物做出与音频相匹配的动作,如演讲、歌唱、演奏乐器以及行走等。尤为OmniHuman在解决人物视频生成中常见的手势失真问题上,相较于现有技术有了显著的提升。该技术还能处理动漫、3D卡通等非真人图片输入,生成的视频能够完美保留原图的特定风格和运动模式。
从技术主页展示的演示效果来看,OmniHuman所生成的视频在自然度方面已经达到了相当高的水平。然而,为了防范技术被滥用,字节跳动技术团队明确表示,OmniHuman将不会对外开放下载,从而在一定程度上保障了技术的合法合规使用。
即梦AI的相关负责人透露,尽管OmniHuman在目前的测试中已经展现出了良好的性能,但在生成接近影视级别的真实视频方面,仍有进一步提升的空间。因此,该模型支持的多模态视频生成功能将在即梦平台上以小规模内测的形式进行调优,并逐步向更广泛的用户开放。同时,即梦AI还将为这一功能设置严格的安全审核机制,并对输出的视频添加水印,以此提醒用户注意视频的合法合规使用,确保AI技术能够发挥正面、积极的作用,助力视频创作者更好地实现创意和想象力的表达。