在科技日新月异的当下,机器人已不再局限于传统的工业应用,它们开始在舞台上翩翩起舞,在格斗赛中灵活腾挪,成为科技领域的璀璨明星。然而,这些令人眼花缭乱的表演背后,具身智能如何真正融入生产和生活,仍是一个亟待解决的问题。
近日,在2025北京智源大会上,来自智源研究院、北京人形机器人创新中心、宇树科技、Physical Intelligence、北京大学及穹彻智能等机构的行业领袖,齐聚一堂,就具身智能的发展现状和未来趋势展开了深入探讨。
宇树科技CEO王兴兴表示,尽管人形机器人在实用性上尚未取得全面突破,但当前的表演和比赛是技术展示的重要窗口,有助于提升公众认知和产业关注度。他强调,这些“炫技”表演是迈向真正实用化阶段的必要步骤,而人形机器人的终极目标,是进入家庭和工厂,解放人类生产力。
北京大学助理教授及银河通用创始人兼CTO王鹤,以及穹彻智能联合创始人、上海交通大学教授卢策吾则提出,未来的机器人比赛应更加聚焦实际应用场景,通过“生产力比赛”推动核心技能的形成与优化。他们指出,“移动抓取与放置”是最具突破潜力的通用任务,这一技能不仅普适性强,适用于多种场景,而且高度适配视觉主导系统,是实现具身智能商业化的关键。
在具身智能的发展路径上,视觉语言行动模型(VLA)逐渐成为行业共识。Physical Intelligence联合创始人兼CEO Karol Hausman认为,VLA是通往通用智能的重要基石,能够让机器人从互联网等多源数据中学习并转化为具体行动。然而,当前面临的挑战在于提升算法效率与模型稳定性,尤其是提升模型在陌生环境中的泛化能力。
与此同时,在具身智能模型训练所需的数据方向上,不同企业和机构也呈现出不同的策略路径。Hausman主张从互联网及多机器人平台中大规模收集预训练数据,并通过高质量小样本精调实现知识到行为的迁移。而银河通用则更倾向于使用合成数据,以低成本和可扩增性驱动基于VLA的端到端大模型。
卢策吾则提出,在VLA框架内引入物理世界知识,尤其是力反馈等多模态信息,以压缩模型面临的不确定性空间。他形象地将VLA比作“火锅底料”,只有持续加入“力觉”“触觉”等新“食材”,才能提升模型对复杂任务的应对能力与系统鲁棒性。
人形机器人硬件的标准化和通用性也对具身智能算法的发展和落地产生显著影响。目前,具身智能研究和产业落地面临的最大痛点之一是数据瓶颈,这在一定程度上是由于机器人硬件平台缺乏统一性所导致的。
对于未来通用机器人的形态,王兴兴表示并不坚持一定要做人形。他认为,人形机器人目前因人类数据可用性而具备训练优势,但长远来看,应根据任务需求发展多样化形态。他甚至指出,轮子底盘在实现移动方面也是“非常实用的”,是腿部行走之外的实际选择。
而北京人形机器人创新中心总经理熊友军则坚定看好人形机器人的未来。他指出,从市场容量、自然交互到人类环境适配性等方面来看,人形构型在通用性上具备长期竞争力。尽管短期内仍面临成本与技术门槛,但人形机器人的未来潜力巨大。