阿里巴巴近日正式推出千问具身智能大模型Qwen-Robot系列,涵盖三大核心模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav以及世界模型Qwen-RobotWorld。这一系列模型通过模拟人类肢体协调、空间导航与逻辑推理能力,为机器人赋予了更接近人类的智能水平,标志着具身智能技术迈入新阶段。
作为具身智能的基础框架,VLA(视觉-语言-动作)模型通过整合视觉感知、语言理解与动作决策能力,使机器人具备环境交互能力。然而,传统VLA模型在跨硬件与跨场景应用中常面临性能衰减问题。针对这一痛点,Qwen-RobotManip创新性地提出80维统一动作表征体系,将不同形态机器人的操作指令转化为标准化"肢体语言"。该模型通过构建基础物理规律与动作逻辑的通用模型,使机器人能够理解动作背后的物理意义,而非简单模仿动作轨迹。实验数据显示,搭载该模型的机器人可在数次反馈循环内完成硬件适配,显著提升跨平台部署效率。
在空间导航领域,Qwen-RobotNav通过整合语言指令导航、目标搜索与自动驾驶等五大任务模块,构建出统一的多任务处理框架。基于Qwen-VL视觉语言模型的技术底座,该系统能够自动解析复杂场景中的空间关系,无需人工干预即可在动态环境中完成路径规划与任务切换。例如,在同时存在"取快递"与"避让行人"的混合指令时,系统可自主协调动作优先级,实现多任务并行处理。
作为系列模型的"认知中枢",Qwen-RobotWorld突破传统模型对即时数据的依赖,通过构建物理规律预测引擎,实现对未来状态的推理模拟。该模型能够根据当前环境参数与动作指令,预判机器人在下一时刻的合理姿态与位置变化,为动作执行提供前瞻性指导。这种基于物理引擎的推理机制,使机器人在面对未训练过的场景时,仍能保持较高的决策准确性。
三大模型既可独立部署于特定场景,也能通过数据接口实现协同运作。当机器人同时接收操作指令与导航任务时,Qwen-RobotManip负责精确控制末端执行器,Qwen-RobotNav规划最优移动路径,Qwen-RobotWorld则持续监测环境变化并调整决策参数。这种分层协作架构,使机器人能够同时处理感知、决策与执行层面的复杂任务,为工业制造、物流配送、家庭服务等领域提供智能化解决方案。









