ITBear旗下自媒体矩阵:

Grok3遇挑战,“最聪明AI”在数学常识题上栽跟头?

   时间:2025-02-19 15:06:20 来源:九派新闻作者:九派新闻编辑:快讯团队 发表评论无障碍通道

在科技界的一次重大直播活动中,马斯克携手xAI团队,隆重推出了他们最新研发的AI模型——Grok3。这款被马斯克誉为“地球上最聪明的AI”的新产品,引发了广泛关注与期待。

马斯克在社交媒体平台X上预热时透露,自己整个周末都在与团队紧密合作,对Grok3进行最后的打磨与优化。这一举动无疑为这款新产品的发布增添了更多神秘色彩。

然而,令人意想不到的是,尽管Grok3在多个领域展现出了卓越的能力,但在面对一个看似简单实则经典的AI测试问题时,却遭遇了尴尬。当被问及“9.11与9.9哪个大?”时,Grok3在未加任何限定条件的情况下,未能给出正确答案。这一结果不禁让人对“最聪明的AI”这一称号产生了质疑。

相比之下,另一款AI模型DeepSeek在处理同样问题时则显得游刃有余。无论是否开启深度思考模式,DeepSeek都能迅速且准确地给出答案:9.9大于9.11。这一对比进一步凸显了Grok3在常识性问题上的不足。

“9.11和9.9哪个大”这一问题,在AI领域早已成为一个经典案例。此前,艾伦研究机构的成员林禹臣就曾公开指出,尽管AI在数学奥赛题方面取得了显著进步,但在常识判断上仍面临巨大挑战。这一观点得到了广泛认同。

事实上,早在Grok3发布之前,Scale AI的提示工程师莱利·古德赛德就曾通过变换问法,对当时的主流大模型进行了类似测试。结果显示,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet在内的多家主流大模型均未能正确回答问题。这一事件再次证明了AI在常识判断上的局限性。

尽管在常识问题上遭遇尴尬,但马斯克对Grok3的信心并未动摇。他在发布会上强调,xAI公司的使命是“了解宇宙”,而Grok3正是他们朝这一目标迈出的重要一步。马斯克透露,Grok3在数学、科学与编程等基准测试上已超越现有主流模型,并有望在未来用于SpaceX的火星任务计算。

为了提升Grok3的性能,马斯克表示团队投入了大量算力与合成数据进行训练。他们还借助了由10万个英伟达H100 GPU驱动的Colossus超级计算机,为Grok3提供了2亿个GPU小时的训练资源。这一庞大的算力支持无疑为Grok3的卓越表现奠定了坚实基础。

在发布Grok3的同时,xAI还宣布推出了一款名为Deepsearch的智能搜索引擎。尽管名字与DeepSeek相似,但两者在算法与技术路径上存在显著差异。Deepsearch的推出将进一步丰富xAI的产品线,为用户提供更多元化的服务。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version