随着单一模态智能的发展逐渐逼近其极限,人工智能的未来演进路径成为了业界关注的焦点。在此背景下,商汤科技董事长兼CEO徐立在2025年世界人工智能大会的主论坛上,发表了题为《人工智能的十年演进》的主旨演讲,分享了他对于人工智能发展的深刻洞察。
徐立指出,过去的十年是人工智能认知变化最为迅猛的十年,也是商汤科技成立的十年。在这十年间,人工智能经历了从感知智能到生成式智能的跃迁。深度学习在视觉领域的兴起,以及自然语言模型的发展,共同推动了这一转变。谷歌搜索趋势的数据清晰地显示了这一过程中大众认知的显著变化。
在感知智能时代,人工智能主要依赖于人工标注的数据进行训练。尽管这种方法在一定程度上推动了人工智能在某些垂直领域的应用,但其泛化能力仍然受限。而生成式智能,尤其是根植于自然语言的多模态大模型,则展现出了更为强大的泛化和通用能力。这得益于自然语言数据的高知识密度,使得模型能够从海量文本中学习到更为丰富的知识。
然而,徐立也意识到,这种依赖于标注和文本数据的方法同样有其局限性。随着数据的消耗,人工智能的发展将面临新的挑战。为了突破这一瓶颈,商汤科技选择了一条融合视觉感知与语言能力的自然路径,构建原生多模态系统。通过引入大量图文数据和高阶多模态思维链,激发模型的潜能,提升其理解和生成能力。
徐立进一步指出,人类智能的增长源于与现实世界的不断互动和探索。这一启示促使商汤科技思考如何从与现实世界的交互中产生智能。为此,他们推出了“开悟”世界模型,这是一个考虑了时间和空间一致性的视频生成模型。通过自然语言描述,即可生成逼真的多视角模拟数据,为自动驾驶等领域提供了丰富的训练素材。
“开悟”世界模型不仅能够生成逼真的视频数据,还能够确保时空的一致性,这对于自动驾驶等需要高精度空间和时间理解的领域至关重要。通过这一模型,商汤科技开启了AI通过模拟进行真实世界探索的新篇章,为人工智能与现实世界的交互提供了新的可能性。
在演讲的最后,徐立表示,商汤科技期待与业界同仁一起,经历人工智能从感知世界到理解世界、再到生成世界并最终与现实硬件交互来改变世界的三个阶段。他们相信,通过不断的探索和创新,人工智能将为人类社会带来更加美好的未来。