可灵短片惊艳全球，马斯克都点赞！这款AI视频工具火了？-信息流-小熊财经

这两天，国产3A游戏《黑神话·悟空》引爆全网，火到了海外，而在AI视频领域，快手可灵也在海外大杀特杀，连马斯克也忍不住上线称赞。

8月20日，马斯克在创作者“dvorahfr”的评论区留言：“AI娱乐产业正在加速变革”，盛赞了一条用Grok和可灵AI制作的短片。

过去半年，AI视频圈的热度可以说从未停止，不少国内外网友都想着借AI颠覆好莱坞。各种经典画面在网上一通发酵，掀起了一阵阵AI生成短视频的热潮。

比如，有网友借助Grok 2的生图能力，和可灵、DreamMachine等相结合，生成了各种令人瞠目结舌的场景：

Grok 2+可灵

Grok 2+Gen 3

Grok+DreamMachine

与此同时，已经推出视频模型的厂商们也在马不停蹄地迭代产品。

8月19日，Luma AI更新了v1.5版本，有大神就利用它的文生视频功能，制作起了电影特效：

8月18日，Runway发布了Gen-3 Alpha Turbo图像转视频模型，生成速度提升了7倍。

再往前，引起病毒式传播的“Ted演讲者”也是由AI直接视频化的：

大半年过去，AI给视频生产和交互体验带了什么样的改变？爆火出圈的产品哪个性价比最高？本文进行了一波综合盘点。

AI生成视频进化到哪了？评价标准是什么

年初OpenAI的虚晃一枪，让国内外不少企业“卷”起了视频生成，今年上半年AI视频生成工具有关话题几度迎来热度高峰。

早已被大家熟知的Runway带来了新一代模型“Gen-3”，将可生成时长拉长至10秒。

Pika在AI视频基础上，不断推出诸如一键添加音效、延长视频、对口型等新功能。

甚至有AI创企Luma从3D模型领域转型AI视频，发布Dream Machine。

国内，字节和快手相继推出即梦、可灵AI，一经发布就吸引了全球网友的青睐。

智象未来、爱诗科技等专注视觉大模型的AI企业，接连上线了HiDream、PixVerse等可用的AI视频工具。

前两周，大模型厂商智谱AI也发布了旗下的AI视频工具“清影”，并将模型“CogVideoX”开源。

今年7月，生数科技旗下的视频模型Vidu面向公众开放，还大大缩短了生成AI视频所需要的时间。

这些视频工具不同于此前剪映推出的数字人、AI一键成片等功能，更像是AI靠自己的知识储备，“无中生有”般生成的视频内容。

AI既要理解用户的指令，还要生成的内容之间前后衔接、内容连贯。

据我们了解，当前，AI从业者普遍认可的AI视频生成的评估标准，至少有3个方面：语义理解、画面美观度以及可控性。

语义理解通常在于文生视频领域，主要看AI能否理解用户表达的指令，简单来说，比如让AI生成一个女孩，它得往年轻、活泼的形象上塑造，不能是一位老太太，否则就是语义理解能力不够。

画面美观度，通常包含视频的画面元素合理性、画质是否精细、是否有掉帧闪烁等问题，而可控性则是动作幅度加大的同时，能否保证画面不出现畸变。

现在的主流视频模型都在往这三大方向进行优化。生数科技CEO唐家渝此前接受媒体采访时提出，未来会持续在模型层面改进，提升AI视频的语义理解、可控性等方面的效果。

除此之外，和模型的交互也是重要的维度之一。谷歌VideoPoet模型作者于力军曾公开表示，视频生成交互是极简和动态的，文字表达宏观的信息，图片提供细节指引，通过任意的输入和编辑，模型会自己理解和生成。

这也对应了产品的易用程度如何。过去，我们可能需要在复杂的操作界面上进行编辑修改，才能实现预期效果，现在可能只需要打打字，就能获得初版预览视频。

横测10款热门AI生成视频工具，

都有哪些优缺点

那么，从一年多前惨不忍睹的威尔史密斯吃面，到现在动辄生成10秒以上的AI视频，我们离电影级别的AI视频生成还有多远？

上述提到的几项评价标准，近日“AI”集中实测了目前最热门的10个AI生成视频工具，尝试分析这些问题。

超强语义理解能力，文生视频跃升新台阶

文生视频，最关键的其实就是投喂给AI的提示词要怎么写。我们结合主流AI视频工具发布的提示词文档，总结了一个相对普适的提示词公式：

提示词：主体+运动方式+场景+镜头语言（可选）+氛围（可选）

根据这个公式，我们列了一组包含了人物、动作、环境以及镜头语言的提示词，尽可能覆盖测试到AI视频生成的不同维度，比如涉及了人物、细节把握、镜头语言以及数字。看看有没有符合预期的视频。

提示词：一位戴着黑框眼镜的女孩静静地坐在咖啡店里，手中捧着印有数字6的咖啡杯，周围是温馨轻松的氛围。镜头采用室内中景，聚焦于女孩和她手中的咖啡杯。Prompt：A girl wearing black-framed glasses sits quietly in a coffee shop, holding a coffee cup with the number 6 printed on it, surrounded by a warm and relaxed atmosphere. The camera captures a medium shot taken indoors, focusing on the girl with her glasses and her coffee cup.

需要注意的是，本文涉及到的测试都只选取了首次生成的视频效果，生成等待时间也参考了免费版本所花时间。

可以看到，Vidu在人物生成上表现出了较高的稳定性，动作变化也较为自然。

眼镜、数字、镜头语言都一一拿捏，除了画面中出现了2个人物外，称得上合格的生成视频。

Vidu生成视频

和Vidu一样，可灵生成的画面也非常流畅，背景营造出人头攒动的咖啡店场景。

遗憾的是，可灵在数字生成上仍存在短板，无法一次精准获得数字效果。

可灵生成视频

PixVerse对语义理解较为精准，提示词中的要素都一一呈现，生成的人物动作幅度也很明显。但也因此出现了“手指异常”，以及眼睛歪斜等技术瑕疵。

PixVerse生成视频

即梦最初的生成效果尚可，但视频稳定性上有所欠缺，到后期“数字6”摇身一变成为了咖啡拉花，女孩的五官也变得不再可控。

即梦生成视频

清影生成的咖啡热气细节相当细节，特写镜头感拉满。但遗憾的是，主体运动上并没有符合我们提示词所写的内容。

清影生成视频

HiDream生成的人物面部控制到位，但无法正确理解提示词中“女孩捧着咖啡杯”，出现了多余的画面元素。

HiDream生成视频

Luma更新v1.5后，整体画面呈现的内容更丰富，不仅仅只有“女孩”一个主角，动作幅度也更大，在光影、构图上也比较自然。只不过，仔细看人物的手部、牙齿还是有AI的痕迹。

Luma DreamMachine生成视频

由于Pika模型本身在动画效果上更胜一筹，所以生成的女孩也逃不开动画的影子。整体画面也只是眨眨眼的微动，也无法识别出精确的数字。

Pika生成视频

Stable Video生成的视觉效果较好，人物外貌、场景、手指细节都没有出现崩坏，但整体运动更像图片平移。

值得一提的是，Stable Video的视频生成逻辑和其他家都不同。

或许是因为Stable Video本身在文生图上具有一定的技术优势，所以它是先生成4张图片，用户从中挑选1张后，再根据这张图生成动态视频。

Stable Video生成视频

在人物类镜头上，Runway Gen-3依旧是最能打的。

整个画面运动非常符合逻辑，也没有明显的画面瑕疵，除了缺少“数字6”这样的细节外，Gen-3这轮表现还是相当出色。

Runway Gen-3生成视频

总的来说，在文生视频这一环节，Vidu、可灵、Runway在语义理解、人物生成、画面可控上表现更为稳定，生成视频的可用度较高，可以大大减少新手抽卡次数。相比之下，其他几家的盲抽概率更大。

另外，在生成等待时间上，Vidu和可灵所花时间最少，生成1个4-5秒的视频，大约只需要等待2-5分钟。Luma DreamMachine生成等待时间最长，不幸的话需要等待10多个小时才能获得一条5秒的视频。

从PPT“伪视频”到动幅明显，AI摆脱切片式画面

图生视频功能上，我们还是选用了经典梗图作为实测素材。

一方面，“威尔史密斯吃面”在一年前就曾火爆AI圈。另一方面，作为人物类案例，涉及手指、人物外貌、物理世界理解，它可以更直观地呈现AI视频生成的几个维度。

擅长吃播的快手可灵在这张图上也有天然优势，在可灵的加持下，感觉盘子里的面看着都更香了。

从画面来看，吃的动作、手指细节都没有太大的问题。

可灵生成视频

Vidu是另一个让我惊喜的视频工具，虽然威尔史密斯的脸部发生了畸变，但在视频流畅性、动作幅度上都超出预期。

Vidu生成视频

清影生成的画面在画面一致性上比较好，但动作过于缓慢，有些违背正常吃饭的速度，不够自然。

清影生成视频

PixVerse主要还是集中在手部和脸部问题上，手部的细节到最后糊成了一团，还多了额外的元素。

PixVerse生成视频

即梦乍一看视频流畅，画面过得去，但它的AI一定有个“中国胃”，吃着吃着叉子变成了筷子。

可惜的是，在努力让画面元素丰富的同时，即梦并不能保证其稳定性。

即梦生成视频

HiDream和Stable Video这次的翻车有点严重，除了面条自行消失外，手部也出现了较为明显的瑕疵。

HiDream生成视频

Stable Video生成视频

乍一看，Luma生成视频还比较正常，但在结尾的时候突然出现了明显的动作异常，开始逐渐往“鬼畜”的方向走了。

Luma DreamMachine生成视频

Runway Gen-3这轮直接上演一个“假吃”，人物面部也和我们上传的图片可以说毫无关系。

Runway Gen-3生成视频

看到这里，各位还记得威尔史密斯长什么样吗？

按道理来说，在技术上，图生视频应该比文生视频实现难度更低，毕竟图生视频给予AI具体的参考物体。但在人物吃播镜头上，上述10款工具表现都不如预期，角色可控性上还是有所欠缺，几乎都上演了“3秒内换脸”的绝技。

但除了人物稳定性之外，我们更容易感知的是，可灵、Vidu在手部细节以及“吃”的真实感上取得了优势，能够生成动作幅度更大，更理解物理世界的视频内容。

卷时长、拼价格，谁是性价比之王？

当然，即便是以上相对集中的横向测试，也不能说明全部。AI生成工具能产生的价值还是在于每个人结合实际需求的使用。

无论是文生图、文生视频，还是图生视频，目前为止应该没有一个模型能够完美适用于所有的场景和任务。

换句话说，每个视频模型都可能针对特定的任务和数据类型进行了优化。一个模型可能更擅长生成现实风格的视频，而另一个可能更擅长卡通或抽象风格。

比如，Vidu就有特定的动画风格，Runway Gen-3更擅长电影镜头，可灵在人物表现上有明显优势等等。

对大部分玩家而言，如果不追求极致的视频效果，想不断进行抽卡，目前几家的免费额度已经够逐一尝鲜。

其中，即梦提供了较高的积分数量（505积分）和较低的生成成本（最低3积分），相比之下，用户可以用较少的积分生成更长的视频。

但如果追求更优质的镜头画面、更快的生成速度，可灵和Vidu综合订阅价格以及抽卡概率，会是不错的选择。Runway的文生视频可玩性最高，对于新手来说，极易获得成就感，但价格上并不占优势。

即使是这样“上手可用”的状态下，很多主流的AI视频工具也还是有一定的改进空间。

AI视频的普遍痛点——画面准确性和可控性，依旧是非常常见的问题。

对此，一些AI企业会通过“事前控制”的方式，让视频可控性得到提升。比如，PixVerse和Runway上线了动态笔刷，尽量让人物外貌、背景保持一致的情况下，画面动起来。可灵、即梦、Dream Machine推出了视频首尾帧功能，让生成视频尽量符合物理规律。

这些功能背后的技术难度不大，但更难的是现阶段阻碍视频工具发展的算力、数据和算法，同步影响生成视频的速度、质量和效果。

对于视频训练AI来说，需要大量光线、细节、人物、时长、镜头等等都不同的画面，进一步进行标注后，提升AI生成的精准度。所以优质的视频数据远比文字图像更难获得。

纵观AI视频生成领域，除了引发大量模型复刻追赶的Sora尚未发布，被誉为“国产Sora”“Sora平替”的各种视频生成工具，都已是“现货”状态。

那么，AI会主导未来的视频工作流吗？

要知道，在视频画面中，只有镜头的来回运动是没有意义的。从PPT到真正的AI短片，除了不断优化画面的美观程度，还有声音、镜头语言、转场等等。

现阶段，我们除了用AI生成需要的画面之外，剪辑、配乐、画面转场都需要人工后期完成。

从Midjourney、Flux生成图像，再在Runway、可灵上制作视频，然后到PR、剪映等剪辑软件上进行升级改造，这样的工作流并不少见，甚至是目前主流的AI视频工作流。

未来是否会有一个AI原生视频编辑平台，在一个应用间实现跨模态的内容，从文字开始，一键生成视频？

个人开发者建的AI原生视频编辑平台：https://clapper.app/

我们在Github上发现了这个想法的雏形，有网友将现有的生成式AI技术集合在一个平台，让任何人都可以使用AI一站式制作视频。相信在不远的将来，AI原生工作流会取代现有的编辑流程，成为创建视频的新思路。