近期,国内AI视频生成领域的创新企业爱诗科技宣布成功完成A2至A4轮融资,融资总额接近3亿元人民币。本轮融资由蚂蚁集团、北京市人工智能产业投资基金、国科投资以及光源资本共同投资。
随着2024年步入尾声,回顾这一年,OpenAI旗下的Sora发布已近一年。那么,中国的视频生成创业公司表现如何呢?面对这一疑问,爱诗科技的创始人王长虎表示,公司已经实现了年初设定的目标。
自Sora预览版发布后,王长虎曾预计,爱诗科技将在3至6个月内达到Sora当前的水平。12月,Sora正式面世,尽管在产品和交互层面带来了不少创新功能,但市场反馈显示,Sora的实际效果并未如预期般惊艳。相比之下,爱诗科技的核心产品PixVerse在中文测试榜单SuperClue中,已经位居文生视频榜单的首位,并且在全球市场中,PixVerse也被列为AI视频生成应用的第一梯队产品。
自创业以来,爱诗科技在两年内取得了显著的成果。PixVerse于2024年1月上线,首月访问量即超过120万。相比之下,硅谷的明星AI视频生成初创公司Pika,上线后三个月的月访问量约为200万。一年后,PixVerse的全球用户数已超过1200万,月活跃用户数接近600万,并且公司已经实现了规模化收入。
PixVerse的快速增长得益于其底层视频模型的多次更新。在2024年,爱诗科技经历了三次重大迭代,包括1月的视频模型V1和7月的V2模型,后者是国内首批发布的对标Sora等DiT架构路线的视频大模型。在清晰度、一致性、物理规律以及指令跟随方面,PixVerse均有了显著提升。10月底,最新V3模型的上线更是引发了社交媒体上的热潮,TikTok、抖音和小红书等平台上爆火的“毒液”特效,总曝光量超过亿次,多位素人博主使用该特效拍摄的视频获得了超百万的播放量。
王长虎表示,“毒液”特效的爆火与PixVerse的底层模型能力密切相关。自2024年3月起,爱诗科技推出了全球首个Character2Video(人物一致性)模型,并不断迭代解决方案。通过在扩散模型(DiT)生成过程中对ID进行精准约束,视频中的人物形象能够与背景保持高度一致,提升了用户体验。
过去一年中,生成式视频领域的难点依然集中在一致性、物理规律等方面,技术难点尚待突破。王长虎坦言,当前行业的技术路线尚未收敛。与此同时,行业内对AI视频的认知和期待已变得更加理性。例如,Sora发布时能够生成长达1分钟的视频,但真正将视频长度拉长后,生成视频的一致性、清晰度等方面可能不尽如人意。面对不满意的结果,用户频繁点击“重新生成”,反而影响了用户体验。
因此,当前AI视频领域的努力方向已从比拼时长转向视频内容的一致性、清晰度、运动幅度等更多维度。王长虎指出,为了保证用户体验和可用性,单纯追求视频时长并无太大意义。PixVerse目前支持生成10秒以内的高质量视频,清晰度最高可达4K,已达到商用级别。相比之下,去年行业普遍能够做到的高质量AI视频停留在5秒内,且清晰度普遍在1080p以下。
PixVerse还在不断更新产品及模型。11月,PixVerse发布的新功能允许用户上传视频,并通过Prompt或选择特效进行视频延长生成。12月,PixVerse的下一个模型V3.5版本已进入内测阶段,生成视频速度可缩短至30秒以内,提示词响应及运动控制能力显著提升,即将正式上线。
这一趋势已有迹象可循。王长虎说:“过去一年,我们经历的重要变化之一是用户从专业创作者扩展到C端用户群体。”这促使爱诗科技在产品功能上不断降低门槛。在PixVerse中,已内置了数十种特效模板,用户只需输入一张图片即可生成视频,无需自己输入或思考如何写Prompt。
进入2024年,初创公司面临的另一个重要问题是如何应对巨头的竞争。AI视频生成领域已涌现出众多玩家,包括快手、字节跳动、阿里巴巴和腾讯等巨头均在2024年推出了相应的AI视频模型。对此,王长虎持乐观态度。他认为,尽管发展迅速,但当前视频生成赛道仍处于GPT-2到GPT-3的阶段,尚有许多技术难点需要突破,这为初创公司提供了机会。此前,爱诗科技的核心团队以少于竞争对手十倍以上的体量攻克了不少业界技术难题。