滚动资讯

当前位置：财经 > 信息流 > 正文内容

马斯克Grok 4跑分曝光，人类最后考试斩获45%高分，AI界新霸主诞生？

时间：2025-07-05 18:43:19 来源：新智元编辑：快讯团队 IP：北京 发表评论无障碍通道

近日，科技界传来一则震撼消息，关于备受瞩目的Grok 4模型跑分数据疑似提前泄露，引发广泛关注和讨论。

据可靠消息源透露，Grok 4在被称为“人类最后考试”的基准测试中取得了高达45%的惊人得分，这一成绩远超当前领先的Gemini与Claude模型，标志着Grok 4已成为当前最强模型之一。特斯拉CEO马斯克曾表示，Grok 4采用“第一性原理”构建推理机制，有望彻底改写大型语言模型（LLM）的格局。

不仅如此，目前部署的Grok模型在能力上已有了显著提升，这一进步从多个角度得到了验证。网友LEGIT分享的一张截图更是直接展示了Grok 4和Grok 4 Code在多个关键基准评测上的跑分情况，这一消息也得到了AI领域知名专家Tibor Blaho的确认。

泄露数据显示，Grok 4在GPQA（研究生级物理和天文学问题）、AIME 25（2025美国数学邀请赛）以及SWE-bench（真实软件工程问题）评测中均表现卓越。特别是在GPQA中，Grok 4得分高达87-88%，略优于Gemini 2.5 Pro的86.4%，并显著超过Claude 4 Opus的79.6%。在AIME 25中，Grok 4得分95%，大幅领先Claude 4 Opus的75.5%和OpenAI o3的88.9%。而在SWE-bench评测中，Grok 4 Code同样表现出色，得分72-75%，略优于Claude Opus 4和OpenAI o3。

尤为Grok 4在覆盖范围最广、难度最高的终极闭卷学术基准“人类最后的考试”（Human Last Exam，HLE）上取得了默认35%、最高45%的惊人高分。这一成绩意味着，在最强状态下，Grok 4的得分是现任榜首Gemini 2.5 Pro的两倍，高出整整24个百分点，相比Claude 4 Opus的10.7%正确率更是翻了四倍有余。

“人类最后的考试”堪称残酷，专为挫败LLM的锐气而设计，涵盖100多个学科的2500道专家级试题，其中14%为多模态题型（文本+图像），24%为多项选择题，并设有防记忆陷阱和隐藏测试集，以阻止“作弊式训练”。Grok 4在这一考试中取得的高分，无疑是对其强大世界知识掌握能力的有力证明。

面对如此强大的Grok 4，网友们纷纷在线催更，期待能够尽快体验到这一划时代模型的魅力。然而，也有部分网友持怀疑态度，联想到此前Llama 4的翻车事件，担心Grok 4是否也经过了“针对性的训练”。不过，从马斯克此前的采访中可以看出，Grok 4的研发过程严谨而科学，旨在从第一性原理出发进行推理，力求以最小的误差接近真实。

马斯克曾在多次公开场合提及Grok 4的研发进展，并表示将尽快发布这一模型。如今，随着跑分数据的泄露，Grok 4的发布似乎已指日可待。作为科技界的又一里程碑事件，Grok 4的发布无疑将引发更广泛的关注和讨论，推动人工智能领域迈向新的高度。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

芯片股风云再起！寒武纪市值飙升，科创芯片50ETF连续吸金是何信号？

08-20

A股3700点之后，为何红利策略仍是稳健投资的首选？

08-20

红熊AI Pre-A轮融资成功，布局AI客服与记忆科学，企服市场迎新力量

08-20

QFII抢滩A股，中小市值成长股成新宠，科技消费等板块受青睐

08-20

激光通信新星崛起！聿凡领光完成数千万元Pre-A轮融资加速扩产

08-20

加州司机集体起诉特斯拉，马斯克被指八年夸大自动驾驶技术

08-20

东风集团抛售东本发动机股权，加速新能源转型何时见成效？

08-20

AI概念股早盘下挫，相关ETF跌幅超2%，科技产业投资主线仍看AI？

08-20

潘多拉中国业务受挫，年内关店数量增至百家并启动裁员

08-20

毛晓彤陈晓“领证”传闻破灭，网友热议：这次辟谣为何如此之快？

8月19日，毛晓彤工作室的一则声明，瞬间引爆了网络，将此前甚嚣尘上的“毛晓彤陈晓领证”传闻彻底击碎。毛晓彤工作室的回应堪称“内娱辟谣范本”，但同时也引发了新的讨论。调侃方：“还没看到谣言，就先刷到辟谣，也…

08-20

马云六年后重返蚂蚁森林，共植希望与树比高，畅谈生态未来

8月19日，阿里巴巴创始人马云时隔六年再次前往荒漠地区，探访“蚂蚁森林”。 8月19日，@蚂蚁森林发布视频，森林摄像头拍到马云现身内蒙古科右中旗蚂蚁森林464号林，与众人打卡合影、和树比高、还跟种树人唠嗑。…

08-20

资本操控下的明星爆火与塌房：都是计划中的一步？

当维护一个明星的成本超过其未来收益，或者其存在阻碍了公司更新换代（如培养更听话、抽成更高的新人）时，一场“意外”的塌房或许就此策划上线。我们不得不承认，王晶捅破的这层窗户纸，揭示了娱乐圈光鲜背后的残酷游戏规…

08-20

男子海上漂流6日奇迹生还，皮包骨状态终获援手

08-20

王晶爆料：明星爆火背后，资本才是那只“看不见的手”？

1、导演王晶谈明星爆火：都是资本在背后做局，追星是很愚蠢的行为王晶还表示说追星是很愚蠢的行为，欣赏一个演员不需要花很多钱，像内地那些饭圈，追星都是花父母…王晶还表示说追星是很愚蠢的行为，欣赏一个演员不需要花…

08-20

罗永浩自述：儿时观念影响深，曾求助精神病医生

8月19日，在@罗永浩的十字路口分享的视频博客《罗永浩的十字路口》第一期（下）中，罗永浩在与理想汽车CEO@李想交流小时候的经历时提到：“我还觉得我长大的时候挺幸运的，我觉得你小时候的环境比我还要幸运。我…

08-20

点击查看更多 +

全站最新

马云六年后重返蚂蚁森林，共植希望与树比高，畅谈生态未来

资本操控下的明星爆火与塌房：都是计划中的一步？

男子海上漂流6日奇迹生还，皮包骨状态终获援手

罗永浩自述：儿时观念影响深，曾求助精神病医生

毛晓彤陈晓“恋情”传闻秒变辟谣，娱乐圈真假消息你怎么看？

宇树科技新款人形机器人预告：180cm身高，31自由度，芭蕾舞姿惊艳亮相！

热门内容

本栏最新

资本操控下的明星爆火与塌房：都是计划中的一步？

男子海上漂流6日奇迹生还，皮包骨状态终获援手

罗永浩自述：儿时观念影响深，曾求助精神病医生

毛晓彤陈晓“恋情”传闻秒变辟谣，娱乐圈真假消息你怎么看？

宇树科技新款人形机器人预告：180cm身高，31自由度，芭蕾舞姿惊艳亮相！

高铁孩童吵闹引纷争，家长反怼乘客：公共礼仪何在？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.