ITBear旗下自媒体矩阵:

大模型迈向AGI:解锁智能新纪元,尽头何在?

   时间:2025-03-05 15:01:41 来源:钛媒体APP作者:ITBEAR编辑:快讯团队 发表评论无障碍通道

1956年的夏天,达特茅斯学院见证了一场历史性的学术聚会。数学教授约翰·麦卡锡首次提出了“人工智能”这一术语,原本预期仅用两个月时间彻底探讨机器模拟智能的问题,却未曾预料到,这一讨论开启了一场影响深远的认知革命。

阿里巴巴集团CEO吴泳铭在财报会议上的发言掷地有声,他预见到,一旦通用人工智能(AGI)成为现实,其催生的产业规模或将登顶全球,甚至可能深刻影响乃至部分取代当前全球经济中的半壁江山。

面对这一科技浪潮,人们在惊喜与担忧中逐渐接纳人工智能,同时也不安地揣测着AGI的到来。然而,作为本轮AI热潮的主角,大语言模型或许只是探索AGI路途中的一个先锋,距离真正的AGI仍有很长的路要走,甚至可能并非通往AGI的正确道路。这不禁让人思考,我们距离实现真正的AGI究竟还有多远?

AGI的概念最初由北卡罗莱纳大学的物理学家Mark Gubrud在1997年提出,他将其定义为一种在复杂性和速度上能与人类大脑相媲美或超越的AI系统,能够获取一般性知识,并基于此进行推理和操作,能在各种工业或军事活动中发挥人类智力的作用。

长久以来,AGI被视为人工智能领域的“圣杯”,意味着机器能够像人类一样,在多种任务中自主学习、推理并适应复杂环境。从GPT-4的对话能力到Sora的视频生成,AI技术近年来取得了长足的进步,但AGI的实现仍面临重重挑战。

AI的核心在于将现实世界的现象转化为数学模型,通过语言让机器理解现实世界与数据的关系。而AGI则更进一步,要求AI不再局限于单一任务,而是具备跨领域学习和迁移能力,具有更强的通用性。然而,当前AI系统虽然在特定任务上超越了人类,如文本生成和图像识别,但本质上仍是“高级模仿”,缺乏对物理世界的感知和自主决策能力。

大模型在处理任务时存在局限性,它们主要处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型并不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。大模型也不是自主的,需要人类明确定义每个任务,就像鹦鹉只能模仿被训练过的话语一样。真正的自主智能应该能够自主完成比现有AI更智能的任务,而当前的AI系统尚不具备这种潜力。

尽管ChatGPT已经在不同文本数据语料库上进行了大规模训练,包括隐含人类价值观的文本,但它并不具备理解或与人类价值保持一致的能力,缺乏道德指南针。然而,这并未阻止科技巨头对大模型的推崇。OpenAI和谷歌等公司将大模型视为迈向AGI的关键一步。

根据OpenAI提出的AGI五级标准,当前AI技术正从L2“推理者”阶段向L3“智能体”阶段跃迁。2025年被认为是智能体应用爆发的一年,我们已经看到ChatGPT、DeepSeek、Sora等应用开始普及,融入人们的生活。

但通往AGI的道路并非一帆风顺,大模型偶尔出现的“幻觉输出”暴露出当前系统对因果关系的理解局限。自动驾驶汽车在面对极端场景时的决策困境,也折射出现实世界的复杂性与伦理悖论。

要实现AGI,大模型需要经历单模态到多模态,再到世界模型的演进。当前阶段是多模态融合阶段,如GPT-4V可以理解输入的文字与图像,Sora可以根据输入的文字、图像与视频生成视频。然而,现阶段的多模态融合还不彻底,“理解”与“生成”两个任务是分开的,导致GPT-4V理解能力强但生成能力弱,而Sora生成能力强但理解能力有时较差。

多模态模型能够处理和理解不同模态的数据,如图像、文本、音频和视频,提供比单一模态更全面、丰富的信息表达。模拟动态环境变化并做出预测和决策,也需要强大的多模态生成能力。人与现实世界的交互涉及多种模态信息,因此AI必须具备多模态理解能力。

多模态模型的研究途径包括对齐、融合、自监督和噪声添加。这些技术结合使用,使多模态模型在处理复杂的现实世界数据方面表现出强大能力。它们能够理解和生成多模态数据,模拟和预测环境变化,帮助智能体做出更精确和有效的决策。

微软近日开源的多模态模型Magma就是一个例子,它不仅具备跨数字、物理世界的多模态能力,还能推测视频中人物或物体的意图和未来行为。阶跃星辰的两款Step系列多模态大模型已与吉利汽车星睿AI大模型完成深度融合,推动AI技术在智能座舱、高阶智驾等领域的普及应用。

然而,多模态在发展过程中仍面临数据获取和处理、模型设计和训练的复杂性,以及模态不一致和不平衡等挑战。多模态学习需要收集和处理来自不同源的数据,这些数据可能具有不同的分辨率、格式和质量,需要复杂的预处理步骤。获取高质量、标注精确的多模态数据成本高昂。

设计能够有效处理和融合多种模态数据的深度学习模型比单模态模型更复杂。需要考虑如何设计合适的融合机制、平衡不同模态的信息贡献,以及如何避免模态间的信息冲突等问题。同时,多模态模型的训练过程也更为复杂和计算密集。

meta人工智能首席科学家杨立昆认为,目前的大模型路线无法通往AGI。现有大模型虽然表现出色,但只是一种“统计建模”技术,通过学习数据中的统计规律来完成任务,本质上并不具备真正的“理解”和“推理”能力。他认为,“世界模型”更接近真正的智能。

世界模型试图通过对视频、音频等媒体的模拟与补全,让AI经历自主学习的过程,从而形成“常识”,并最终实现AGI。世界模型与多模态大模型的主要区别在于,世界模型主要通过传感器直接感知外部环境信息,输入数据以实时感知的外部环境为主;而多模态大模型则以图片、文字、视频、音频等信息交互为主。

世界模型的发展面临多方面的挑战,包括模拟环境动态及因果关系的能力、进行反事实推理的能力,以及物理规则的模拟能力。为了克服这些挑战,研究人员需要考虑更精确的物理引擎与计算模型,确保生成的场景遵循真实世界的物理定律。

评估世界模型性能的关键标准之一是泛化能力,强调数据外推而非仅数据内插。例如,学习得到的世界模型能否想象罕见的驾驶事件,要求模型不仅要记忆训练数据,还要发展对驾驶原理的深刻理解。

通过在模型训练过程中加入更多真实场景的实时动态数据,可以让AI更好地理解三维世界的空间关系、运动行为和物理规律,从而实现对物理世界的洞察和理解。AGI的到来或许不会像奇点理论预言的那样突然,而是在数据洪流的冲刷下逐渐显现。

AI的未来并非一个固定终点,而是人类与技术共同书写的叙事。它可能是工具、伙伴、威胁,或是超越想象的形态。关键问题或许不在于“AI的尽头是什么”,而在于“人类希望以何种价值观引导AI的发展”。答案取决于我们今天的决策与责任。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version