ITBear旗下自媒体矩阵:

马斯克xAI入局“世界模型”角逐,“视觉模型”能否开启AI新篇章?

   时间:2025-10-12 21:25:31 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域正经历一场重要变革,技术重心从擅长文本处理的大语言模型,逐步转向能够模拟现实世界物理规律的“世界模型”。这场竞争吸引了谷歌、meta等科技巨头,而马斯克旗下的xAI也悄然入局,试图在这个新兴领域占据一席之地。

据英国《金融时报》报道,xAI今年夏天从英伟达挖角两名人工智能专家,专门从事世界模型相关研究。与传统依赖文本训练的大语言模型不同,世界模型通过分析大量视频和机器人操作数据,试图掌握现实世界的物理规则。英伟达上月曾预测,这一技术的潜在市场规模可能接近全球经济总量,显示出其巨大的商业价值。

谷歌研究人员在近期论文中提出,视频模型可能像语言模型一样,通过简单任务训练获得复杂能力。例如,谷歌的视频模型Veo 3在“下一帧预测”任务中,展现出了物体分割、边缘检测等未经专门训练的技能,这种“涌现能力”与大语言模型通过“下一词元预测”获得数学和写作能力的方式类似。

xAI的布局已初现端倪。公司聘请了英伟达的Zeeshan Patel和Ethan He两位专家,他们曾在世界模型领域取得显著成果。知情人士透露,xAI计划将这一技术首先应用于游戏领域,开发可交互的3D环境。马斯克在社交平台X上确认,xAI将在明年年底前推出一款AI生成游戏,并暗示这些技术未来可能用于机器人系统。

xAI的招聘信息也反映了其战略方向。公司正在为“omni团队”招聘图像和视频生成领域的技术人员,年薪最高达44万美元,旨在“创造超越文本的AI体验”。公司还以时薪45至100美元招聘“视频游戏导师”,用于训练其AI模型Grok制作游戏。

谷歌研究人员Jack Clark在论文中进一步指出,视频模型可能引发机器视觉领域的“范式转移”。他将视频逐帧生成的过程类比为语言模型的“思维链”,认为这种“帧链”推理能力使视频模型能够跨越时空进行复杂分析。这一发现暗示,更智能的视频模型可能催生出能力极强的机器人“代理”。

然而,世界模型的发展仍面临重大挑战。目前,获取和处理足够训练数据的成本极其高昂,成为技术落地的首要障碍。与此同时,业界对AI的作用也持谨慎态度。热门游戏《博德之门3》的发行主管Michael Douse在X上表示,AI无法解决游戏行业的核心问题,即“领导力和愿景”。他认为,行业需要的是对世界更多样化的表达,而非单纯依赖技术生成的游戏内容。

尽管如此,xAI的入局无疑加剧了世界模型领域的竞争。人工智能的焦点正从数字信息处理转向物理现实模拟,视觉模型能否复制大语言模型的成功,迎来属于自己的“GPT时刻”,不仅将决定下一代AI技术的走向,更可能改变人类与数字及物理世界的互动方式。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version