全球科技界翘首以盼的时刻终于到来,埃隆·马斯克携其“世界最强”AI模型Grok 4震撼发布。在一场引人注目的直播活动中,Grok 4以其卓越表现,在人类智慧终极考验——“人类最后考试”上,首次突破了50%的准确率大关。
Grok 4的成功,很大程度上归功于其在训练过程中原生融合了工具使用的能力。这一创新策略使得Grok 4 Heavy版本在该基准测试中取得了44.4%的高分,相比之前的顶尖模型Gemini-2.5-Pro,提升幅度接近18个百分点。
更令人惊叹的是,当在测试阶段同时采用训练与工具融合策略时,Grok 4的准确率更是飙升至50.7%。马斯克形象地对比道,普通人类在这一测试中的得分通常仅为5%,凸显了Grok 4的非凡智能。
直播中,马斯克毫不吝啬地赞誉Grok 4:“它比所有领域的博士生都要聪明!”他进一步透露,Grok 4即便在不提前查看题目的情况下参加SAT考试,也能获得近乎完美的分数,而在GER考试中则几乎满分。
Grok 4的辉煌战绩不仅限于“人类最后考试”。在其他多个基准测试中,它也展现出了压倒性的优势,包括在GPQA(研究生水平问答)上获得88.9%的得分,AIME25(美国数学邀请赛)上满分通过,以及在LCB、HMMT25和USAMO25等数学和逻辑竞赛中均取得了显著成绩。
为了直观展示Grok 4的智能水平,直播中还安排了一场与ChatGPT的语音对话对比。结果显示,Grok 4的表现明显优于ChatGPT,进一步印证了其强大的推理和理解能力。
发布活动上,马斯克与斯坦福大学博士后、多伦多大学博士毕业的吴宇怀(Tony)Wu,以及多伦多大学本硕博连读、现任Hinton助理教授并荣获2023年斯隆奖的Jimmy Ba一同亮相。他们详细介绍了Grok 4的卓越性能和背后的技术创新。
据透露,Grok 4的训练量是Grok 2的100倍、Grok 3的10倍,其中在强化学习方面投入了大量计算资源,主要依托xAI建设的20万卡计算集群。Grok 4在后训练过程中原生融入了工具使用,通过多项结果对比证明了其高效性和实用性。
直播中,Grok 4展示了其在数学、推理、多模态理解等方面的强大能力,以及编程、药物发现等领域的广泛应用。特别是在游戏领域,Grok 4能够设计和构建视频游戏,包括资源获取和代码编写等,仅需4个小时就能完成一款第一人称射击游戏。
马斯克表示,真正意义上的AI视频游戏将在明年问世,他之前已成立工作室致力于此。同时,他还透露了Grok系列的未来规划,包括即将发布的编程模型、多模态Agent和视频生成模型等。