ITBear旗下自媒体矩阵:

具身智能机器人破局之路:聆动通用季超详解“大小脑结合”新模式

   时间:2025-07-28 19:01:26 来源:时代周报编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在2025年世界人工智能大会(WAIC)的热闹场景中,人形机器人展区成为了万众瞩目的焦点,吸引了络绎不绝的参观者。这一盛况不仅彰显了具身智能的火爆程度,也预示着该领域正逐步成为人工智能界的新宠。

近年来,从机器人亮相春晚舞台到全球首个人形机器人马拉松比赛的举办,具身智能正以前所未有的速度闯入公众视野,成为AI领域最引人注目的赛道之一。在此背景下,安徽聆动通用机器人科技有限公司(简称“聆动通用”)于2024年12月正式宣告成立,标志着安徽省在“大脑-小脑-本体”全链路自主可控的硬科技领域迈出了重要一步。

聆动通用不仅是初创企业,更是一家拥有多场景商业闭环实践经验的硬科技企业。依托科大讯飞星火认知大模型的强大底层能力,聆动通用致力于将具身大模型与通用机器人本体深度融合,旨在打造新一代的生产力工具。在WAIC大会上,聆动通用震撼发布了其最新产品——具身智能采训推一体机。

聆动通用的CEO、科大讯飞机器人首席科学家季超向记者介绍,此次展出的采训推一体机采用了创新的“消费级与工规级融合方案”,直击行业级具身数据缺失的重大难题。这款一体机专为提升具身智能机器人在真实场景中的技能而设计,或将开启具身智能机器人从算法实验室走向工业产线的新篇章。

在聆动通用成立之前,科大讯飞已在机器人领域有所布局。自2022年初启动“讯飞超脑2030计划”以来,科大讯飞在具身智能方面取得了显著进展。2023年,季超团队发布了业界首个集成全自主国产认知大模型的具身智能人形机器人,率先在国内打通了大模型和具身智能的机器人全链路。同年的世界机器人大会上,科大讯飞展示了一款高约1.7米、体重60公斤的人形机器人,其运动性能提升了两倍,复杂任务拆解成功率超过95%,开放场景物体寻找成功率也超过了85%。科大讯飞还推出了AI扫拖机器人X3、AI助教机器人X1等多款针对不同场景的机器人产品。

尽管机器人在工业场景中的应用前景广阔,但具身智能的核心矛盾依旧突出。工业生产要求机器人具备极高的可靠性,任何误差都可能导致生产线停摆。然而,当前通用大模型与机器人在实际场景中的规划成功率尚未达到工业级要求,高质量数据的稀缺与跨场景适配的复杂性使得机器人难以突破“实验室好用、工厂不好用”的困境。为了解决这一问题,季超团队对采训推一体机进行了深入研发,试图通过硬件创新和软件架构的优化,在成本与精度、通用与专用之间找到最佳平衡点。

季超坦言,具身智能的真正战场不在舞台,而在产业应用。聆动通用和科大讯飞致力于让机器人对人类生产产生实质性的帮助。在WAIC现场,季超详细阐述了采训推一体机的关键技术节点和与科大讯飞核心技术的协同作用。他表示,采训推一体机的关键技术包括跨本体适配和数据清洗等,而科大讯飞的星火大模型则是其“大脑”的核心支撑。这种“平台+赛道”的逻辑,正是聚焦机器人行业突破的关键。

关于采训推一体机采用消费级与工规级融合方案的原因,季超解释说,这是为了解决高质量数据稀缺的问题。具身智能领域最需要的是高质量的机器人操作数据,而数据采集的最终目的是为了后续的模型训练。工业场景需要长时间、高强度的数据采集,这要求采用更加严苛的工规级方案以保证数据稳定性,但纯工规级方案成本过高。因此,聆动通用选择在关键环节采用工规级方案,其他部分则采用消费级方案,既控制了成本又满足了模型训练的需求。

季超进一步指出,聆动通用的一体机与其他数据采集设备的本质区别在于,多数设备厂商只提供硬件,难以负责后续数据的治理和使用。而聆动通用推出的一体机则采用了“数据+服务”的商业模式,所采集的真机数据直接用于后端具身大模型的微调,从而形成了从数据采集到模型训练、硬件部署再到场景落地的全链条闭环。

在工业场景中,机器人数据采集和模型训练的痛点具体表现为数据采集成本高、数据格式不统一、模型训练效率低等问题。例如,在汽车零部件分拣场景中,SKU种类繁多,不同品牌机器人的数据格式和接口协议也存在差异。小模型的开发成本高,且采集的数据难以互通,导致模型训练时需要花费大量精力进行数据质量的校验、筛选和转换。

针对机器人泛化性差的问题,季超用通俗易懂的语言解释了聆动通用一体机方案中的“大小脑结合”模式。他解释说,“大脑”是指基于互联网海量数据预训练的视觉-语言多模态基座模型,使机器人具备一定的推理能力;“小脑”则是通过一体机采集的真机数据进行针对性微调,使机器人具备一定的规划能力。这种“大小脑结合”的范式革新,使得基座模型能够通过少量真机数据微调,快速适配多SKU零件分拣,并在“类”级任务之间实现低成本泛化。

季超还谈到了如何缩小通用大模型与工业级可靠性之间的差距。他指出,差距的本质在于模型对陌生场景的误判。工业场景对节拍效率和精度有严格要求,但不需要特别长程的规划。因此,通过大脑加小脑的预训练加微调方案,可以在一定程度上提高数据质量,降低幻觉风险。聆动通用的解决方案核心价值在于“用真实数据对抗幻觉”,通过设计一体机实现高质量真机数据,从而在大脑、小脑以及硬件层面共同降低幻觉风险,提升工业级应用的可用性和可靠性。

对于聆动通用成立时具身智能硬件领域已有众多玩家的情况,季超表示,科大讯飞早在2021年就已内部关注并开始布局具身智能。他认为,具身智能的发展路径与大模型相似,是多模态大模型的进一步拓展。具身智能将成为机器人行业的范式革命,前景广阔。

聆动通用的核心竞争力主要体现在三个方面:一是科大讯飞在大模型领域的丰富积累;二是团队长期沉淀的行业场景理解和数据积累;三是AI+供应链的理解和整合能力。季超表示,聆动通用希望在全球竞争中步入具身+高端制造业领域的“国家队”序列,并凭借全栈能力重塑上下游产业链,构建下一代具身智能机器人核心产业链,推动机器人从科研和消费层进入工业实际生产,满足千行百业的需求。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version