埃隆·马斯克在一次备受瞩目的发布会上,亲自推介了其人工智能公司xAI的最新成果——Grok 4,一款据称在智能水平上已超越博士生的聊天机器人。
发布会现场,马斯克身着一件标志性的皮夹克,在xAI团队成员的簇拥下,激情洋溢地介绍了这款新模型。他声称,Grok 4在各类学术测试中均表现出色,甚至在被誉为“人类终极考试”的挑战中,借助工具和多智能体协作,取得了50.7%的惊人成绩。
马斯克表示,尽管Grok 4在某些方面,如常识理解和新技术发明上还有待提升,但他坚信这只是时间问题。值得注意的是,就在发布会前数小时,xAI的首席科学家Igor Babuschkin突然宣布辞职,这一变故并未影响发布会的如期举行。
据马斯克介绍,Grok 4系列包含两个版本:Grok 4和Grok 4 Heavy。这两款模型都专注于推理能力,摒弃了非推理模式。在SAT和GRE考试中,Grok 4均取得了近乎满分的优异成绩,其表现甚至超过了绝大多数研究生。
Grok 4还搭载了“深度搜索”工具,能够从网络,尤其是马斯克的X平台上抓取实时数据,这意味着它能在对话中直接提供最新信息,无需用户额外打开浏览器。
xAI声称,在多项基准测试中,Grok 4都展现出了前沿水平。在“人类的最后考试”中,Grok 4在没有工具辅助的情况下,获得了25.4%的准确率,超过了谷歌的Gemini 2.5 Pro和OpenAI的o3。而配备工具的Grok 4 Heavy更是取得了44.4%的得分,遥遥领先。
在ARC-AGI测试中,Grok 4也表现出色,其成绩与AI推理系统的帕累托最优边界高度吻合。Grok 4在编码指数、数学指数等关键基准测试中同样领先,甚至在GPQA Diamond测试中创下了88%的历史最高分。
马斯克还透露,Grok 4不仅支持文本交互,未来还将支持图像和视频处理,这将使其在多模态能力上更接近OpenAI的GPT-5o和谷歌的Gemini 2.5 Pro。Grok 4还将通过多个平台向广大受众开放,包括xAI控制台、Grok.com、X平台以及iOS和Android应用。
在发布会现场,xAI研究科学家Tony Wu详细介绍了Grok 4在训练方面的进展。他表示,从Grok 3到Grok 4,xAI将大量计算资源投入到推理和强化学习中,这使得Grok 4在人文硕士考试基准测试中解决了超过50%的文本问题,实现了显著飞跃。
马斯克将这一成就归功于大规模计算扩展,并指出xAI的Colossus超级计算机已扩展到20万个GPU,使其在强化学习中的计算能力比任何竞争对手高出10倍。他还开玩笑说,Grok 4甚至可以通过管理库存和合同,在AI商业模拟游戏中使竞争对手的净资产翻一番。
Grok 4的发布在各大平台上引发热议,网友们纷纷表示,这款新模型在多项基准测试中的得分令人印象深刻,甚至有人认为它可能已经超越了现有的SOTA模型。随着Grok 4的推出,人工智能领域的竞争无疑将更加激烈。