在科技界引发广泛关注的消息传来,阿里云宣布了一项重大举措。2月25日晚,其旗下的视觉生成基座模型——万相2.1(Wan),正式向全球开发者开放源代码。此次开源采用的是极为宽松的Apache 2.0协议,涵盖了14B和1.3B两种参数规格的全部推理代码与权重,并支持文字生成视频及图片生成视频的任务。开发者可以在Github、HuggingFace以及魔搭社区等平台下载并体验。
阿里云此次开源行动,标志着其实现了全模态、全尺寸大模型的全面开放。据官方介绍,14B参数的万相模型在指令遵循、复杂运动生成、物理建模以及文字视频生成等多个方面均表现出色。在权威评测集VBench中,万相2.1以总分86.22%的成绩遥遥领先,超越了包括Sora、Luma、Pika在内的国内外众多模型,稳居榜首。而1.3B版本的表现同样不俗,不仅在测试中超越了部分更大尺寸的开源模型,甚至接近了某些闭源模型的水平。更它能够在消费级显卡上运行,仅需8.2GB显存即可生成高质量视频,非常适合二次模型开发和学术研究。
在算法设计层面,万相模型基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE以及可扩展的预训练策略等创新技术。以3D VAE为例,为了实现高效支持任意长度视频的编码和解码,万相在因果卷积模块中引入了特征缓存机制,替代了直接对长视频进行端到端编解码的过程,从而实现了对无限长1080P视频的高效处理。通过提前进行空间降采样压缩,万相在不牺牲性能的前提下,进一步减少了29%的推理时内存占用。
在多项测试中,万相模型均展现出了业界领先的表现。在运动质量、视觉质量、风格和多目标等14个主要维度以及26个子维度的测试中,万相均获得了优异成绩,并在5项测试中夺得第一。特别是在复杂运动和物理规律遵循方面,万相模型能够稳定地展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,并且能够精准还原碰撞、反弹、切割等复杂真实的物理场景。
自2023年以来,阿里云就坚定地走上了大模型开源的道路。从2023年8月起,阿里云相继开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖了从0.5B到110B的全尺寸范围,以及大语言、多模态、数学和代码等全模态领域。这些模型多次登上国内外权威榜单,已成为全球开源社区中不可或缺的模型系列。目前,阿里云千问(Qwen)的衍生模型数量已超过10万个,是全球最大的AI模型家族之一。
在万相模型开源的同时,阿里巴巴集团也宣布了一项重大投资计划。CEO吴泳铭在2月24日表示,未来三年,阿里将投入超过3800亿元用于建设云和AI硬件基础设施,这一投资总额超过了过去十年的总和,也创下了中国民营企业在该领域投资的新纪录。吴泳铭指出:“AI的爆发远超预期,国内科技产业正方兴未艾,潜力巨大。阿里巴巴将不遗余力地加速云和AI硬件基础设施建设,以助推全行业生态的发展。”
此前,吴泳铭在财报会上透露,阿里将于近期发布基于千问Qwen2.5-MAX的深度推理模型。而1月底,阿里已经发布了AI基础大模型千问旗舰版Qwen2.5-Max,并在多项权威基准评测中取得了业界领先的水平。目前,Qwen的全球衍生模型数量已突破9万个,位居全球第一。2月25日,通义千问官方账号在海外社交平台上发布了QwQ-Max-Preview(推理模型预览版),并宣布即将发布QwQ-Max的正式版本、可部署在本地的较小版本以及官方App QwQ-Max。
作为亚洲领先的云计算公司,阿里云在AI领域的投入和成果备受瞩目。此次万相模型的开源以及3800亿元的投资计划,不仅极大提振了相关产业的信心,也彰显了阿里巴巴一如既往相信未来、投资未来的决心和魄力。