ITBear旗下自媒体矩阵:

智源研究院:从大模型到世界模型,提前布局引领AI新方向

   时间:2026-06-18 06:33:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在中国人工智能领域的发展进程中,智源研究院始终扮演着关键角色。近年来,随着大模型创业潮的兴起,从这里走出了一批在行业内极具影响力的人物。智谱的创始人唐杰、月之暗面的创始人杨植麟、面壁智能的联合创始人刘知远以及银河通用的创始人王鹤等,他们所创办的企业在大模型和具身智能领域均有着突出表现,智源研究院也因此被视为中国大模型浪潮的重要人才源头。

中国大模型产业从无到有的发展历程中,智源研究院不仅是悟道大模型的诞生地,还为众多知名企业输送了大量人才,成为行业发展的重要推动力量。当下,AI行业的热点正从大模型向具身智能转移。公开数据表明,2026年一季度,具身智能产业链在一级市场获得的融资累计高达2560亿元,显示出这一领域的巨大发展潜力。

与大模型创业初期类似,具身智能赛道如今也呈现出头部化趋势。对于估值超百亿的具身智能本体公司,大部分风险投资机构已难以参与其中。在此背景下,一级市场的资金开始流向具身智能产业链的上游企业,而世界模型作为产业链上的热门方向,吸引了众多关注。

尽管世界模型概念在过去一年频繁出现,但行业内尚未形成统一定义。在近期的一场重要会议上,智源研究院院长对世界模型的四类技术路线进行了明确划分。第一类是以语言为中心的世界模型,像VLM、VLA这类模型,在文本空间预测下一个词,只能学到语言描述的世界,无法理解背后的物理逻辑。第二类是以像素为中心的世界模型,例如2024年初OpenAI将Sora称为“世界模拟器”,这类模型在视觉空间学习视频或图像,学到的是像素描述的世界。第三类是以三维结构为中心的世界模型,李飞飞创立World Labs后提出“空间智能”并对世界模型进行定义,此类模型旨在让AI理解和生成可交互的三维世界,但模型重建3D空间并不等同于理解世界。第四类是以视觉表征为中心的世界模型,由meta首席AI科学家提出,主张在隐空间学习世界规律,通过预测抽象状态理解现实世界,不过模型预测的是视觉表征的压缩,与物理规律演化不同。

目前,智源研究院正在探索第五种路线,即结合以语言为中心和以视觉表征为中心的方法,也称为潜空间表征,让同一个潜空间能够解码不同模态。智源研究院已形成从基座大模型、智能体到基础软硬件生态的完整布局。在今年的相关会议上,发布的悟界·Physis - v0.1与悟界·RoboBrain Orca是其世界模型路线的重要成果。悟界·Physis - v0.1定位为全球首款通用世界基座模型,由22岁的青年科学家陈博远负责,他担任智源行为世界模型创新中心负责人,带领团队探索下一代通用世界基座模型。悟界·RoboBrain Orca由智源具身模型负责人王鹏伟带队,打造基于下一个物理状态预测为核心的具身大脑,期望为具身智能机器人赋能。

随着世界模型被视为人工智能下一阶段的重要方向,智源研究院延续了其在大模型时代的前沿探索传统,将重点从语言模型转向世界模型。对于为何提前布局世界模型,智源研究院院长有着清晰的认识。在他看来,世界模型不会像大模型那样迅速形成统一赛道和竞争格局,因为目前技术路线尚未收敛,各家所提及的世界模型概念也可能不同,这种情况会持续较长时间,导致非行业人士难以分辨真正的世界模型。

智源研究院致力于打造具备泛化能力的通用世界基座模型,这种模型并非单纯生成视频或复刻现实世界的像素细节,而是能够理解世界运行规律并预测未来状态。院长以一个2岁小女孩为例,小女孩通过观看短视频和与真实世界交互,学会了拆糖果、串蓝莓等能力,世界模型就应具备类似人类自主学习的能力。然而,当前行业存在一个普遍误区,即将“视觉能力”与“物理理解”混为一谈。无论是视频生成模型还是机器人公司广泛使用的VLM/VLA,本质上仍停留在语言描述或像素描述的世界,未能触及物理状态预测的核心。

过去两年,VLM和VLA成为机器人公司的标配,借助大模型推理能力,机器人能够完成简单指令理解、路径规划和部分操作任务。但当面对训练数据中未出现过的新场景时,机器人的泛化能力有限,例如知道拿起杯子却不知杯子掉落的后果,知道开门动作却不一定理解门后的空间关系变化。这表明机器人缺少对现实世界运行规律的理解能力,而世界模型有望解决这一问题。

目前,世界模型的发展还处于早期阶段,没有统一定义、技术路线和行业公认的基础架构。OpenAI的World Simulator、李飞飞的空间智能以及Yann LeCun提出的世界模型框架等,都处于探索阶段,行业对于“什么才是真正的世界模型”仍存在巨大分歧。不过,这并不影响世界模型的重要性,它就像2012年的深度学习,当时AlexNet的出现让深度学习展现出超越传统算法的潜力,但没人能预见后续Transformer和ChatGPT的出现。如今,世界模型也正经历类似时刻,它可能成为机器人时代的基础设施,也可能演化成全新的智能架构,其发展方向充满不确定性,但已吸引越来越多研究机构、创业公司和资本的关注。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version