ITBear旗下自媒体矩阵:

马斯克Grok 4跑分曝光,人类最后考试斩获45%高分,AI界新霸主诞生?

   时间:2025-07-05 18:43:19 来源:新智元编辑:快讯团队 IP:北京 发表评论无障碍通道

近日,科技界传来一则震撼消息,关于备受瞩目的Grok 4模型跑分数据疑似提前泄露,引发广泛关注和讨论。

据可靠消息源透露,Grok 4在被称为“人类最后考试”的基准测试中取得了高达45%的惊人得分,这一成绩远超当前领先的Gemini与Claude模型,标志着Grok 4已成为当前最强模型之一。特斯拉CEO马斯克曾表示,Grok 4采用“第一性原理”构建推理机制,有望彻底改写大型语言模型(LLM)的格局。

不仅如此,目前部署的Grok模型在能力上已有了显著提升,这一进步从多个角度得到了验证。网友LEGIT分享的一张截图更是直接展示了Grok 4和Grok 4 Code在多个关键基准评测上的跑分情况,这一消息也得到了AI领域知名专家Tibor Blaho的确认。

泄露数据显示,Grok 4在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)评测中均表现卓越。特别是在GPQA中,Grok 4得分高达87-88%,略优于Gemini 2.5 Pro的86.4%,并显著超过Claude 4 Opus的79.6%。在AIME 25中,Grok 4得分95%,大幅领先Claude 4 Opus的75.5%和OpenAI o3的88.9%。而在SWE-bench评测中,Grok 4 Code同样表现出色,得分72-75%,略优于Claude Opus 4和OpenAI o3。

尤为Grok 4在覆盖范围最广、难度最高的终极闭卷学术基准“人类最后的考试”(Human Last Exam,HLE)上取得了默认35%、最高45%的惊人高分。这一成绩意味着,在最强状态下,Grok 4的得分是现任榜首Gemini 2.5 Pro的两倍,高出整整24个百分点,相比Claude 4 Opus的10.7%正确率更是翻了四倍有余。

“人类最后的考试”堪称残酷,专为挫败LLM的锐气而设计,涵盖100多个学科的2500道专家级试题,其中14%为多模态题型(文本+图像),24%为多项选择题,并设有防记忆陷阱和隐藏测试集,以阻止“作弊式训练”。Grok 4在这一考试中取得的高分,无疑是对其强大世界知识掌握能力的有力证明。

面对如此强大的Grok 4,网友们纷纷在线催更,期待能够尽快体验到这一划时代模型的魅力。然而,也有部分网友持怀疑态度,联想到此前Llama 4的翻车事件,担心Grok 4是否也经过了“针对性的训练”。不过,从马斯克此前的采访中可以看出,Grok 4的研发过程严谨而科学,旨在从第一性原理出发进行推理,力求以最小的误差接近真实。

马斯克曾在多次公开场合提及Grok 4的研发进展,并表示将尽快发布这一模型。如今,随着跑分数据的泄露,Grok 4的发布似乎已指日可待。作为科技界的又一里程碑事件,Grok 4的发布无疑将引发更广泛的关注和讨论,推动人工智能领域迈向新的高度。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version