ITBear旗下自媒体矩阵:

智能驾驶新战场:AI推理能力成车企竞争关键

   时间:2025-04-01 12:00:58 来源:钛媒体APP作者:ITBEAR编辑:快讯团队 发表评论无障碍通道

智能驾驶领域的竞争态势正在发生深刻变化。过去,行业内的竞争主要聚焦于VLM(视觉-语言模型)与VLA(视觉-语言-动作模型)的选择、一段式与两段式方案的对比,以及无图与有图技术的差异。然而,从今年开始,竞争已经深入到更为核心的领域——算力集群与算法架构。

在这场竞争中,无论是智能驾驶、大模型还是具身智能,都正在经历从快速预训练响应向慢速深度推理的转变。这一转变标志着AI不再仅仅依赖于快速的模式匹配,而是开始具备深入思考并解决复杂问题的能力。这被视为AI突破智能瓶颈的关键时刻。

“推理”这一概念在逻辑学中早已存在,它指的是系统根据已知前提,通过规则来产生新的结论或决策的能力。在AI领域,推理反映了模拟人类思维的能力。与人类通过已有知识对新情况进行分析类似,AI也通过训练获得的知识,在不确定的输入情况下生成合理输出。

OpenAI的联合创始人伊利亚·苏茨克维尔曾明确指出,AI的预训练时代已接近尾声。随着数据资源增长放缓而计算能力持续提升,必须重新评估和利用现有数据,提高推理效率。这一观点揭示了推理在AI发展下半场中的重要性。

推理之所以变得尤为重要,是因为随着应用场景的复杂化和多样化,简单的数据处理和分类已经无法满足需求。在智能驾驶领域,系统不仅需要识别行人、车辆和交通信号,还需要理解它们之间的交互关系,预测未来的行为,并据此做出安全、合理的驾驶决策。这要求AI具备强大的推理能力。

以学生学习和考试为例,平时的课堂学习和写作业可以看作是AI模型的训练阶段,而考试则是对推理能力的考验。学生需要利用掌握的知识来分析解答考试题目,这一过程与AI的推理过程相似。同样地,考试的知识点必须在课本知识范围内,否则学生将无法有效作答。在AI领域,这也意味着推理必须建立在训练完成的基础上。

AI的训练和推理是决定其智能化水平的两大基石。在训练阶段,通过大量数据和算法,AI模型学会识别和生成规律。而在推理阶段,训练好的模型被应用于新的、未见过的数据,利用先前学到的规律进行预测、分类或生成新内容。

推理可以分为批量推理、在线推理和流式推理三种模式。批量推理以大批量的形式进行,不是实时处理;在线推理可以实时提供响应,适用于边缘场景;流式推理则接收持续不断的数据流,进行预测并更新内部数据库。

在智能驾驶领域,今年的竞争尤为激烈。比亚迪、吉利、奇瑞和广汽等主流车企纷纷推出智能驾驶计划,表明智能驾驶已成为汽车行业的重要竞争点。随着BEV、端到端技术浪潮的兴起,车企们正逐步将AI神经网络融入感知、规划、控制等环节。

在端到端模型之外,车企们还引入了大语言模型、VLM模型等外挂,以提升环境理解能力,从而提高智能驾驶能力上限。同时,融合了视觉、语言和动作的多模态大模型范式——VLA正在成为智能驾驶技术演进的关键一环。VLA模型具备更高的场景推理能力与泛化能力,有望成为从L2级辅助驾驶向L4级自动驾驶跃迁的关键跳板。

以理想汽车为例,在近期的NVIDIA GTC大会上,理想发布了新一代自动驾驶架构——MindVLA。该架构通过整合空间智能、语言智能和行为智能,赋予自动驾驶系统以3D空间理解能力、逻辑推理能力和行为生成能力,并计划于2026年量产应用。

VLA模型最早见于机器人行业,如谷歌DeepMind推出的RT-2模型。RT-2可以直接与用户进行语言交互,并在接收摄像头原始数据和语言指令后,输出控制信号完成复杂操作。这一成功很快被应用到智能驾驶领域,如谷歌Waymo推出的EMMA模型。

从技术路径看,VLA模型是在VLM基础上发展而来。VLM能够处理图像和自然语言文本,而VLA则进一步引入机器人或汽车运动轨迹的数据,训练现有VLM以输出可用于控制的动作序列。通过这种方式,VLA可以解释复杂指令并在物理世界中执行相应动作。

虽然“端到端+VLM”技术架构已大幅提升智能驾驶水平,但仍存在联合训练困难、3D空间理解不足等问题。而VLA通过统一的大模型架构,将感知、决策、执行无缝串联,形成闭环,可以同步提高智能驾驶的上限和下限。

VLA模型的优势在于与现有大语言模型范式兼容,具备全局上下文理解与类人推理能力。它还能与乘客或其他车辆进行交互,接受并执行指令。同时,VLA将基于规则的偏好注入模型,让驾驶决策符合人类预期。VLA还展现出跨领域通用性,未来有望应用于更广泛的智能设备。

然而,VLA要想实现全面上车,还需解决数据与信息深度融合的问题,并具备强大的数据闭环能力。真实数据与实时响应也是VLA面临的挑战。技术特性决定了VLA的成熟度与落地速度高度依赖数据规模与算力投入。

在提升汽车智能化方面,除了VLA模型外,还有像MogoMind这类面向真实物理世界的大模型。它们融合多模态理解、时空推理、自适应进化等能力,将实时数据纳入模型训练,为精准决策提供支持。

随着技术的不断演进,2025年将成为车端推理与VLA全面进击的元年。各家车企将围绕算法效率、硬件成本与用户价值展开激烈竞争。新一轮智能驾驶格局洗牌正在酝酿,对于在技术和数据方面具有优势的车企来说,这将是一个巩固市场地位的重要机遇;而对于未及时跟进的车企来说,则面临着更加严峻的挑战。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version