这两天,国产3A游戏《黑神话·悟空》引爆全网,火到了海外,而在AI视频领域,快手可灵也在海外大杀特杀,连马斯克也忍不住上线称赞。
8月20日,马斯克在创作者“dvorahfr”的评论区留言:“AI娱乐产业正在加速变革”,盛赞了一条用Grok和可灵AI制作的短片。
过去半年,AI视频圈的热度可以说从未停止,不少国内外网友都想着借AI颠覆好莱坞。各种经典画面在网上一通发酵,掀起了一阵阵AI生成短视频的热潮。
比如,有网友借助Grok 2的生图能力,和可灵、DreamMachine等相结合,生成了各种令人瞠目结舌的场景:
Grok 2+可灵
Grok 2+Gen 3
Grok+DreamMachine
与此同时,已经推出视频模型的厂商们也在马不停蹄地迭代产品。
8月19日,Luma AI更新了v1.5版本,有大神就利用它的文生视频功能,制作起了电影特效:
8月18日,Runway发布了Gen-3 Alpha Turbo图像转视频模型,生成速度提升了7倍。
再往前,引起病毒式传播的“Ted演讲者”也是由AI直接视频化的:
大半年过去,AI给视频生产和交互体验带了什么样的改变?爆火出圈的产品哪个性价比最高?本文进行了一波综合盘点。
AI生成视频进化到哪了?评价标准是什么
年初OpenAI的虚晃一枪,让国内外不少企业“卷”起了视频生成,今年上半年AI视频生成工具有关话题几度迎来热度高峰。
早已被大家熟知的Runway带来了新一代模型“Gen-3”,将可生成时长拉长至10秒。
Pika在AI视频基础上,不断推出诸如一键添加音效、延长视频、对口型等新功能。
甚至有AI创企Luma从3D模型领域转型AI视频,发布Dream Machine。
国内,字节和快手相继推出即梦、可灵AI,一经发布就吸引了全球网友的青睐。
智象未来、爱诗科技等专注视觉大模型的AI企业,接连上线了HiDream、PixVerse等可用的AI视频工具。
前两周,大模型厂商智谱AI也发布了旗下的AI视频工具“清影”,并将模型“CogVideoX”开源。
今年7月,生数科技旗下的视频模型Vidu面向公众开放,还大大缩短了生成AI视频所需要的时间。
这些视频工具不同于此前剪映推出的数字人、AI一键成片等功能,更像是AI靠自己的知识储备,“无中生有”般生成的视频内容。
AI既要理解用户的指令,还要生成的内容之间前后衔接、内容连贯。
据我们了解,当前,AI从业者普遍认可的AI视频生成的评估标准,至少有3个方面:语义理解、画面美观度以及可控性。
语义理解通常在于文生视频领域,主要看AI能否理解用户表达的指令,简单来说,比如让AI生成一个女孩,它得往年轻、活泼的形象上塑造,不能是一位老太太,否则就是语义理解能力不够。
画面美观度,通常包含视频的画面元素合理性、画质是否精细、是否有掉帧闪烁等问题,而可控性则是动作幅度加大的同时,能否保证画面不出现畸变。
现在的主流视频模型都在往这三大方向进行优化。生数科技CEO唐家渝此前接受媒体采访时提出,未来会持续在模型层面改进,提升AI视频的语义理解、可控性等方面的效果。
除此之外,和模型的交互也是重要的维度之一。谷歌VideoPoet模型作者于力军曾公开表示,视频生成交互是极简和动态的,文字表达宏观的信息,图片提供细节指引,通过任意的输入和编辑,模型会自己理解和生成。
这也对应了产品的易用程度如何。过去,我们可能需要在复杂的操作界面上进行编辑修改,才能实现预期效果,现在可能只需要打打字,就能获得初版预览视频。
横测10款热门AI生成视频工具,
都有哪些优缺点
那么,从一年多前惨不忍睹的威尔史密斯吃面,到现在动辄生成10秒以上的AI视频,我们离电影级别的AI视频生成还有多远?
上述提到的几项评价标准,近日“AI”集中实测了目前最热门的10个AI生成视频工具,尝试分析这些问题。
超强语义理解能力,文生视频跃升新台阶
文生视频,最关键的其实就是投喂给AI的提示词要怎么写。我们结合主流AI视频工具发布的提示词文档,总结了一个相对普适的提示词公式:
提示词:主体+运动方式+场景+镜头语言(可选)+氛围(可选)根据这个公式,我们列了一组包含了人物、动作、环境以及镜头语言的提示词,尽可能覆盖测试到AI视频生成的不同维度,比如涉及了人物、细节把握、镜头语言以及数字。看看有没有符合预期的视频。
提示词:一位戴着黑框眼镜的女孩静静地坐在咖啡店里,手中捧着印有数字6的咖啡杯,周围是温馨轻松的氛围。镜头采用室内中景,聚焦于女孩和她手中的咖啡杯。Prompt:A girl wearing black-framed glasses sits quietly in a coffee shop, holding a coffee cup with the number 6 printed on it, surrounded by a warm and relaxed atmosphere. The camera captures a medium shot taken indoors, focusing on the girl with her glasses and her coffee cup.需要注意的是,本文涉及到的测试都只选取了首次生成的视频效果,生成等待时间也参考了免费版本所花时间。
可以看到,Vidu在人物生成上表现出了较高的稳定性,动作变化也较为自然。
眼镜、数字、镜头语言都一一拿捏,除了画面中出现了2个人物外,称得上合格的生成视频。
Vidu生成视频
和Vidu一样,可灵生成的画面也非常流畅,背景营造出人头攒动的咖啡店场景。
遗憾的是,可灵在数字生成上仍存在短板,无法一次精准获得数字效果。
可灵生成视频
PixVerse对语义理解较为精准,提示词中的要素都一一呈现,生成的人物动作幅度也很明显。但也因此出现了“手指异常”,以及眼睛歪斜等技术瑕疵。
PixVerse生成视频
即梦最初的生成效果尚可,但视频稳定性上有所欠缺,到后期“数字6”摇身一变成为了咖啡拉花,女孩的五官也变得不再可控。
即梦生成视频
清影生成的咖啡热气细节相当细节,特写镜头感拉满。但遗憾的是,主体运动上并没有符合我们提示词所写的内容。
清影生成视频
HiDream生成的人物面部控制到位,但无法正确理解提示词中“女孩捧着咖啡杯”,出现了多余的画面元素。
HiDream生成视频
Luma更新v1.5后,整体画面呈现的内容更丰富,不仅仅只有“女孩”一个主角,动作幅度也更大,在光影、构图上也比较自然。只不过,仔细看人物的手部、牙齿还是有AI的痕迹。
Luma DreamMachine生成视频
由于Pika模型本身在动画效果上更胜一筹,所以生成的女孩也逃不开动画的影子。整体画面也只是眨眨眼的微动,也无法识别出精确的数字。
Pika生成视频
Stable Video生成的视觉效果较好,人物外貌、场景、手指细节都没有出现崩坏,但整体运动更像图片平移。
值得一提的是,Stable Video的视频生成逻辑和其他家都不同。
或许是因为Stable Video本身在文生图上具有一定的技术优势,所以它是先生成4张图片,用户从中挑选1张后,再根据这张图生成动态视频。
Stable Video生成视频
在人物类镜头上,Runway Gen-3依旧是最能打的。
整个画面运动非常符合逻辑,也没有明显的画面瑕疵,除了缺少“数字6”这样的细节外,Gen-3这轮表现还是相当出色。
Runway Gen-3生成视频
总的来说,在文生视频这一环节,Vidu、可灵、Runway在语义理解、人物生成、画面可控上表现更为稳定,生成视频的可用度较高,可以大大减少新手抽卡次数。相比之下,其他几家的盲抽概率更大。
另外,在生成等待时间上,Vidu和可灵所花时间最少,生成1个4-5秒的视频,大约只需要等待2-5分钟。Luma DreamMachine生成等待时间最长,不幸的话需要等待10多个小时才能获得一条5秒的视频。
从PPT“伪视频”到动幅明显,AI摆脱切片式画面
图生视频功能上,我们还是选用了经典梗图作为实测素材。
一方面,“威尔史密斯吃面”在一年前就曾火爆AI圈。另一方面,作为人物类案例,涉及手指、人物外貌、物理世界理解,它可以更直观地呈现AI视频生成的几个维度。
擅长吃播的快手可灵在这张图上也有天然优势,在可灵的加持下,感觉盘子里的面看着都更香了。
从画面来看,吃的动作、手指细节都没有太大的问题。
可灵生成视频
Vidu是另一个让我惊喜的视频工具,虽然威尔史密斯的脸部发生了畸变,但在视频流畅性、动作幅度上都超出预期。
Vidu生成视频
清影生成的画面在画面一致性上比较好,但动作过于缓慢,有些违背正常吃饭的速度,不够自然。
清影生成视频
PixVerse主要还是集中在手部和脸部问题上,手部的细节到最后糊成了一团,还多了额外的元素。
PixVerse生成视频
即梦乍一看视频流畅,画面过得去,但它的AI一定有个“中国胃”,吃着吃着叉子变成了筷子。
可惜的是,在努力让画面元素丰富的同时,即梦并不能保证其稳定性。
即梦生成视频
HiDream和Stable Video这次的翻车有点严重,除了面条自行消失外,手部也出现了较为明显的瑕疵。
HiDream生成视频
Stable Video生成视频
乍一看,Luma生成视频还比较正常,但在结尾的时候突然出现了明显的动作异常,开始逐渐往“鬼畜”的方向走了。
Luma DreamMachine生成视频
Runway Gen-3这轮直接上演一个“假吃”,人物面部也和我们上传的图片可以说毫无关系。
Runway Gen-3生成视频
看到这里,各位还记得威尔史密斯长什么样吗?
按道理来说,在技术上,图生视频应该比文生视频实现难度更低,毕竟图生视频给予AI具体的参考物体。但在人物吃播镜头上,上述10款工具表现都不如预期,角色可控性上还是有所欠缺,几乎都上演了“3秒内换脸”的绝技。
但除了人物稳定性之外,我们更容易感知的是,可灵、Vidu在手部细节以及“吃”的真实感上取得了优势,能够生成动作幅度更大,更理解物理世界的视频内容。
卷时长、拼价格,谁是性价比之王?
当然,即便是以上相对集中的横向测试,也不能说明全部。AI生成工具能产生的价值还是在于每个人结合实际需求的使用。
无论是文生图、文生视频,还是图生视频,目前为止应该没有一个模型能够完美适用于所有的场景和任务。
换句话说,每个视频模型都可能针对特定的任务和数据类型进行了优化。一个模型可能更擅长生成现实风格的视频,而另一个可能更擅长卡通或抽象风格。
比如,Vidu就有特定的动画风格,Runway Gen-3更擅长电影镜头,可灵在人物表现上有明显优势等等。
对大部分玩家而言,如果不追求极致的视频效果,想不断进行抽卡,目前几家的免费额度已经够逐一尝鲜。
其中,即梦提供了较高的积分数量(505积分)和较低的生成成本(最低3积分),相比之下,用户可以用较少的积分生成更长的视频。
但如果追求更优质的镜头画面、更快的生成速度,可灵和Vidu综合订阅价格以及抽卡概率,会是不错的选择。Runway的文生视频可玩性最高,对于新手来说,极易获得成就感,但价格上并不占优势。
即使是这样“上手可用”的状态下,很多主流的AI视频工具也还是有一定的改进空间。
AI视频的普遍痛点——画面准确性和可控性,依旧是非常常见的问题。
对此,一些AI企业会通过“事前控制”的方式,让视频可控性得到提升。比如,PixVerse和Runway上线了动态笔刷,尽量让人物外貌、背景保持一致的情况下,画面动起来。可灵、即梦、Dream Machine推出了视频首尾帧功能,让生成视频尽量符合物理规律。
这些功能背后的技术难度不大,但更难的是现阶段阻碍视频工具发展的算力、数据和算法,同步影响生成视频的速度、质量和效果。
对于视频训练AI来说,需要大量光线、细节、人物、时长、镜头等等都不同的画面,进一步进行标注后,提升AI生成的精准度。所以优质的视频数据远比文字图像更难获得。
纵观AI视频生成领域,除了引发大量模型复刻追赶的Sora尚未发布,被誉为“国产Sora”“Sora平替”的各种视频生成工具,都已是“现货”状态。
那么,AI会主导未来的视频工作流吗?
要知道,在视频画面中,只有镜头的来回运动是没有意义的。从PPT到真正的AI短片,除了不断优化画面的美观程度,还有声音、镜头语言、转场等等。
现阶段,我们除了用AI生成需要的画面之外,剪辑、配乐、画面转场都需要人工后期完成。
从Midjourney、Flux生成图像,再在Runway、可灵上制作视频,然后到PR、剪映等剪辑软件上进行升级改造,这样的工作流并不少见,甚至是目前主流的AI视频工作流。
未来是否会有一个AI原生视频编辑平台,在一个应用间实现跨模态的内容,从文字开始,一键生成视频?
个人开发者建的AI原生视频编辑平台:https://clapper.app/
我们在Github上发现了这个想法的雏形,有网友将现有的生成式AI技术集合在一个平台,让任何人都可以使用AI一站式制作视频。相信在不远的将来,AI原生工作流会取代现有的编辑流程,成为创建视频的新思路。