【ITBEAR科技资讯】6月24日消息,随着人工智能技术的迅猛发展,聊天机器人等应用已逐渐融入人们的日常生活,通过简单的指令即可从聊天机器人(如ChatGPT)中快速获取信息。然而,这些机器人有时会出现“幻觉”现象,即给出错误甚至危险的回答,引发了人们对信息可靠性的关注。
牛津大学的研究人员近期在《自然》杂志上发表了一项新研究,他们提出了一种独特的方法来检测大型语言模型(LLMs)中的“捏造”问题。这一问题指的是LLMs在生成回答时可能产生的错误或虚假信息。
据ITBEAR科技资讯了解,LLMs通过识别训练数据中的模式来生成回答。然而,这种基于模式匹配的方法有时会导致误解,类似于人类可能从云朵形状中看到动物一样,LLMs也可能“看到”并不存在的模式,进而产生“幻觉”。为了解决这一问题,牛津大学的研究人员引入了语义熵的概念。
语义熵描述了一个词语在不同上下文中具有多种含义的情况,例如“desert”一词既可以指沙漠,也可以表示抛弃某人。研究人员通过计算语义熵,判断LLMs在生成回答时是否可能出现“幻觉”。这种方法不依赖于特定的监督或强化学习,能够快速有效地检测LLMs的可靠性。
该研究的团队表示,他们的方法不仅能够帮助用户识别LLMs输出中的潜在问题,还为那些因信息可靠性受限的LLM应用提供了新的可能性。然而,他们也强调,尽管语义熵可能成为一种有效的检测手段,但用户仍应对ChatGPT等聊天机器人提供的答案保持谨慎,并进行必要的核查。
牛津大学的研究为人工智能的可靠性检测提供了新的思路。随着技术的不断进步,我们有望拥有更加智能、可靠的聊天机器人伙伴,但始终保持对信息的审慎态度仍然至关重要。