大型语言模型:看似精通世界,实则“地图”混乱
大型语言模型(LLM)如GPT系列,常常展现出令人惊叹的能力,它们不仅能撰写诗歌,还能编写功能齐全的计算机程序。这些模型似乎掌握了某种关于世界的“普遍真理”,但实际上,它们的世界观可能远非我们想象的那样准确。
一项新研究发现,一种流行的生成式人工智能模型在纽约市导航任务上表现出色,但它并没有形成一张准确的城市地图。当研究人员对模型进行测试,关闭部分街道并增加绕行路线时,其性能迅速下降。深入探究后,研究人员发现,模型生成的纽约地图充满了不存在的街道,这些街道在网格间曲折蜿蜒,连接着遥远的路口。
这项研究对LLM的现实应用提出了警告。如果任务或环境稍有变化,原本表现良好的模型可能会立即崩溃。研究人员指出,尽管LLM在语言处理方面取得了显著成就,但它们在其他科学领域的应用仍需谨慎。为了确定LLM是否形成了准确的世界模型,仅仅评估其预测的准确性是不够的。
为了更深入地了解LLM的世界模型,研究人员开发了两个新指标:序列区分和序列压缩。他们通过这两个指标测试了不同类型的Transformer模型,发现即使模型在几乎所有情况下都能产生准确的方向和有效的动作,它们也并未形成连贯的世界模型。
研究人员进一步发现,随机做出选择的Transformer模型在某些情况下形成了更准确的世界模型,这可能是因为它们在训练期间看到了更多潜在的下一步。然而,这些模型生成的“地图”同样充满了混乱和错误。