在人工智能领域,大型语言模型(LLMs)以其卓越的能力惊艳了世人,无论是创作诗歌还是编写计算机程序,它们都能游刃有余。然而,这些模型是否真的理解了世界的本质?一项新的研究对此提出了质疑。
研究人员发现,一种常见的生成式AI模型在纽约市提供驾驶路线时,准确率极高,但实际上并未形成准确的城市地图。当测试环境发生变化,如关闭部分街道或添加绕行路线时,模型的表现迅速下滑。深入分析后,他们发现模型生成的纽约地图中,存在大量不存在的街道,这些街道连接着远离实际的交叉路口。
为了更深入地理解这一现象,研究人员开发了新的评估指标,以测试LLMs的世界模型。他们选择了两个具有明确规则的问题:纽约市街道导航和奥赛罗棋盘游戏。通过这两个指标,他们发现,尽管模型能生成准确的导航方向和有效的棋步,但它们并未真正理解规则,生成的世界模型也不连贯。
这项研究的结果对生成式AI模型在现实世界中的应用产生了深远影响。一个在某环境中表现良好的模型,在环境稍有变化时可能会完全失效。研究人员指出,如果科学家希望构建能够捕捉准确世界模型的LLMs,需要采用不同的方法。
研究人员还发现,随机选择的Transformer模型在生成世界模型时,比使用策略训练的模型更准确。这可能是因为前者在训练中看到了更多潜在的下一步选择。然而,即使这些模型能生成准确的导航方向和有效的棋步,它们的世界模型仍然不连贯。
这项研究的结果提醒我们,尽管LLMs在某些任务中表现出色,但我们不应过分依赖它们。科学家需要更深入地理解这些模型的运作机制,以构建更准确、更可靠的人工智能系统。