ITBear旗下自媒体矩阵:

多模态大模型2025:技术纷争中,视频生成商业化风起云涌

   时间:2025-06-11 10:19:37 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在近期举办的智源大会2025上,多模态大模型成为了焦点话题,吸引了来自学术界、创业公司和科技巨头的众多参与者。这场为期两天的论坛,汇聚了多模态领域的热门选手,包括爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等创业公司,以及字节、腾讯、百度等大厂的代表,还有来自中国人民大学和麻省理工学院的专家学者。

大会现场,关于多模态大模型的讨论热烈非凡。与会者围绕自回归、扩散、原生多模态等技术路线展开了深入探讨,这些技术路线的论证和实践分享揭示了一个事实:相较于大语言模型战场,多模态大模型的技术路径仍在不断探索之中,远未形成统一共识。

智源研究院院长王仲远指出,尽管多模态大模型已在特定场景开始落地应用,但尚未实现高度普适化。他认为,要实现根本性突破,还需依赖更强大的基础模型。一旦多模态模型达到足够可用的水平,将极大推动产业发展。

面对多模态大模型的发展现状,Sand.ai联合创始人张拯表示:“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”他以视频生成为例,指出目前视频生成还处于GPT-2到GPT-3之间的阶段,距离理想中的效果还有一定差距。

智象未来CEO梅涛也表达了类似观点,他认为视频生成在叙事性、稳定性和可控性方面仍有待提升。特别是在可控性方面,要求模型能够精准生成指定内容,但目前的大模型还无法达到这样的水准。梅涛强调,数据质量成为提升模型生成效果的关键。

在提升多模态大模型能力方面,各家企业采取了不同的技术路线。相较于普遍采用Diffusion Transformer模型的文生图、文生视频领域,多模态大模型应采用何种技术路线,业内尚未达成共识。Sand.ai CEO曹越指出,主流的Diffusion和Transformer训练方案存在可扩展性不足的问题。

Luma AI创始人宋佳铭则认为,多模态大模型进入下半场的前提是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理速度足够快。这涉及到多模态和“原生多模态”两条路线的区分。

为了解决这个问题,智源研究院推出了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。Emu3采用自回归的生成方式,能够处理文本、图像、视频的任意组合理解与生成,实现跨模态交互。

MIT CSAIL的黎天鸿认为,真正的“下半场”多模态应该是模型能处理超越人类感官的数据。智源研究院也分享了多模态数据形态的扩充,包括脑信号等。

在商业应用方面,企业端正在加速多模态大模型在行业中的落地进程。字节跳动Seed图像&视频生成负责人黄伟林表示,2025年是图像生成商业化元年。他给出了用户生成图片下载率和留存率的数据,证明了图像生成已经越过了商业化的关键门槛。

黄伟林还表示,头部视频生成产品的年化收入预计今年将达到1亿美元,明年可能增长到5到10亿美元。生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点。

在商业化路线上,中国的多模态大模型公司们给出了不同的答案。爱诗科技创始人王长虎分享了旗下产品PixVerse通过特效视频模版在社交媒体上的传播,成功打响了知名度。爱诗科技选择先做To C,再做To B的商业化路径。

相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。骆怡航表示,生数科技强调的是对成本以及生产效率的降低,与行业深入适配,满足行业的专业需求。他分享了一个海外动画工作室与生数科技合作打造“AI动漫”工作流的案例,证明了AI视频生成在提升效率和降低成本方面的潜力。

随着多模态大模型技术的不断发展和商业化进程的加速,可以预见的是,下半年多模态领域的AI生成将在商业化上迎来更激烈的竞争。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version