近期,科技界的焦点人物马斯克再次引发了广泛关注。作为OpenAI的联合创始人,马斯克不仅在汽车和航天领域取得了显著成就,对人工智能(AI)领域也抱有极大的热情。他旗下的xAI公司开发的人工智能助手Grok,正成为业界热议的话题。据最新消息,xAI正在进行一笔高达3亿美元的股权交易,此次交易对xAI的估值达到了惊人的1130亿美元。
然而,马斯克最近在社交媒体X平台上表达了他对当前AI大模型的不满。他指出,许多AI大模型在未经校正的数据基础上进行训练,导致生成的内容存在大量垃圾信息。为了解决这个问题,马斯克计划使用具有高级推理能力的Grok 3.5(或命名为Grok 4)来重写人类知识语料库,旨在添加缺失信息并删除错误内容,从而构建一个更加可靠、可信的知识基础。
测试中,包括豆包、通义、文心、Kimi、DeepSeek以及马斯克旗下xAI公司的Grok在内的六款AI大模型接受了挑战。测试结果显示,尽管AI大模型在某些问题上仍表现出AI幻觉,但整体而言,它们的能力已经有了显著提升。特别是在处理简单问题时,如询问“Strawberry”一词中有多少个字母“r”,多数AI大模型都能给出正确答案。
然而,在面对更复杂或具有误导性的问题时,AI大模型的表现则参差不齐。例如,在回答“法拉第未来为什么能够成为2024年全球新能源汽车销量冠军?”这一问题时,部分AI大模型给出了分析,但其中一些内容存在数据捏造或分析不准确的情况。相比之下,Grok 3则给出了较为精准的数据和分析,显示出其训练数据库的及时更新和高级推理能力。
测试还发现了一个有趣的现象:联网搜索功能对AI大模型的准确性有着显著影响。在开启联网搜索的情况下,AI大模型能够连接外部知识库,对答案进行验证和校准,从而提高生成内容的准确性。这一发现对于用户在使用AI大模型时提供了有益的指导:如果追求生成内容的准确性,最好开启联网搜索功能。
尽管AI幻觉问题仍然存在,但测试结果显示,通过多轮推理、复杂问题拆解并分步验证机制以及外部知识融合机制等技术手段,AI企业正在不断优化AI大模型,以减少AI幻觉的产生。马斯克计划重写人类知识语料库的做法虽然备受争议,但无疑也反映了业界对于提高AI大模型准确性的迫切需求。
值得注意的是,重写人类知识语料库并非没有争议。有专家指出,这种做法可能会掺入xAI的观点,影响语料的客观性。而且,训练AI大模型需要不断加入新的数据来丰富语料库,若总是对数据进行重写,势必会影响到开发进度。因此,业界普遍认为,通过加入新机制对AI大模型生成的内容进行验证,是减少AI幻觉的更好方案。
总之,随着AI技术的不断发展,AI大模型在减少AI幻觉方面已经取得了显著进展。然而,要构建一个完全可靠、可信的AI系统,仍然需要业界不断探索和努力。