马斯克旗下的AI公司xAI终于揭开了其备受期待的AI模型Grok 3的神秘面纱。在2月17日晚的视频直播发布会上,这款AI模型及其精简版Grok 3 mini正式面世,吸引了超过百万观众在线观看。
Grok 3被视为xAI对业界其他领先模型,如OpenAI的o3-mini和DeepSeek的R1的回应。据马斯克介绍,Grok 3不仅能分析图像、回答问题,还为xAI平台上的多项功能提供了强大支持。早在发布会前几天,马斯克就在其社交平台X上为Grok 3造势,称其为“地球上最聪明的人工智能”。
在发布会上,马斯克与三位xAI工程师共同展示了Grok 3的多样功能。马斯克声称,在包括AIME(评估模型解决数学问题能力)和GPQA(评估模型在博士级物理、生物和化学问题上的表现)在内的多项基准测试中,Grok 3击败了市面上所有其他模型。这一说法似乎得到了AI基准测试开放平台lmarena.ai的数据支持,该平台显示,早期版本的Grok 3(代号chocolate)在Arena排行榜上位居榜首,成为首个得分超过1400分的模型。
然而,发布会后并非所有反馈都是正面的。有用户在观看直播后指出,Grok 3在回答关于《流放之路2》游戏的问题时错误频出。另有用户测试发现,在经典的多边形小球编程问题上,Grok 3也给出了错误的答案。
Grok 3的发布之路可谓一波三折。早在2024年7月,马斯克在与知名心理学家乔丹·彼得森的访谈中就透露,Grok 3预计将于年底发布。然而,到了年底这一承诺并未兑现,一度引发外界对Grok 3能否如期发布的质疑。不过,在上周的迪拜峰会上,马斯克突然宣布,xAI将在一到两周内推出Grok 3,并称其强大到“让人感到害怕”,甚至预言这可能是“最后一次有AI比Grok更优秀”。
从xAI在直播中展示的基准测试结果来看,Grok 3在数学、科学和编程领域的表现确实大幅领先于市面上其他主流的AI模型。在数学能力测试(AIME'24)中,Grok 3获得52分,远超DeepSeek-V3的39分和GPT-4o的9分;在科学知识评估(GPQA)和编程能力测试(LCB Oct-Feb)中,Grok 3同样以显著优势领先。
与DeepSeek等技术改进型模型不同,马斯克的新模型采用了“大力出奇迹”的策略。据报道,xAI组建了一个配有十万块H100 GPU的超级计算机集群Colossus来训练Grok模型。而在直播中,马斯克透露,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。这也解释了为何有人称Grok 3是终极的Scaling Law测试,是靠吞噬算力训练起来的“怪物”。
在演示中,xAI团队展示了Grok 3在物理学和游戏领域的应用。例如,要求Grok 3生成一段代码绘制从地球发射火箭到火星并返回的三维动画图表,这一任务涉及大量数学和物理计算,但Grok 3很快便生成了完整的动画,且结果完全正确。Grok 3还顺利完成了结合俄罗斯方块和宝石迷城的游戏编写任务。
除了基本的模型能力外,Grok 3还具备智能体功能。xAI为Grok 3开发了一个类似于OpenAI的DeepSearch智能体,可以对互联网进行全面搜索并提供详尽的整合报告。马斯克表示,这可以节省用户大量搜索时间,并为公司带来数十亿美元的回报。