ITBear旗下自媒体矩阵:

Grok 4跑分曝光,马斯克新宠在“人类最后考试”中斩获45%高分!

   时间:2025-07-05 15:38:51 来源:新智元编辑:快讯团队 IP:北京 发表评论无障碍通道

近日,AI领域迎来了一则震撼人心的消息:Grok 4的跑分数据在“人类最后考试”(Human Last Exam,简称HLE)中意外泄露,显示其得分高达45%,这一成绩远超当前顶尖的Gemini与Claude模型,预示着LLM(大型语言模型)格局或将迎来重大变革。

据多方消息透露,特斯拉CEO埃隆·马斯克对Grok 4寄予厚望,称该模型采用了“第一性原理”构建推理机制,有望引领AI技术的新一轮飞跃。马斯克在之前的采访和公开场合曾多次提及Grok项目的进展,并表示团队正紧锣密鼓地筹备Grok 4的发布。

此次泄露的跑分数据不仅涵盖了Grok 4在HLE上的惊人表现,还包括了其在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)等多个关键基准评测上的卓越成绩。Grok 4在GPQA上的得分接近88%,在AIME 25上更是高达95%,而在SWE-bench评测中,专为编程设计的Grok 4 Code也展现出了强劲实力,得分位于72%至75%之间。

HLE作为专为挫败LLM而设计的残酷考试,包含了横跨100多个学科的2500道专家级试题,其中不乏多模态题型和多项选择题,且设有防记忆陷阱和隐藏测试集,以防止“作弊式训练”。然而,Grok 4却在这一考试中取得了默认35%、最高45%的惊人高分,这一成绩几乎是现任老大Gemini 2.5 Pro的两倍,相较于Claude 4 Opus更是翻了四倍有余。

面对如此强劲的表现,网友们纷纷在线催更,期待能够早日见证Grok 4的正式发布。不过,也有部分网友对此持怀疑态度,联想到此前Llama 4因提前进行“针对性训练”而翻车的事件,担心Grok 4的成绩是否也存在类似问题。对此,AI圈知名大佬Tibor Blaho已对泄露的数据进行了确认,为Grok 4的真实性提供了有力背书。

马斯克在之前的采访中曾透露,Grok 3.5(即如今的Grok 4)正尝试从第一性原理出发进行推理,将物理学的方法应用到思维过程中。这一理念在即将发布的Grok 4中得到了充分体现,使得该模型在自然语言、数学及推理领域展现出了无与伦比的性能。专为编程设计的Grok 4 Code也成为了此次发布的重头戏之一,备受开发者们的期待。

随着Grok 4发布日期的临近,AI领域或将迎来一场前所未有的技术革命。Grok 4的卓越表现不仅将推动LLM技术的发展迈向新高度,还将为开发者们提供更加智能、高效的编程助手和工具。让我们共同期待Grok 4的正式发布吧!

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version