近日,科技界巨头埃隆·马斯克携其xAI团队,在一场备受瞩目的直播活动中,正式揭晓了备受期待的Grok 3。此前,马斯克通过一系列预热宣传,已将公众对Grok 3的期望推向巅峰。然而,这款被马斯克寄予厚望的人工智能模型,在实际表现上却未能如其宣传般惊艳。
直播现场,马斯克宣称Grok 3在数学、科学与编程领域的基准测试中,已超越当前所有主流模型,并计划将其应用于SpaceX的火星任务计算。他甚至大胆预测,未来三年内,Grok 3有望实现诺贝尔奖级别的科学突破。然而,现实却给这份豪情泼了一盆冷水。
发布后不久,一些媒体即对Grok 3的Beta版进行了测试,并提出了一个看似简单实则刁钻的问题:“9.11与9.9哪个大?”令人惊讶的是,被誉为“最聪明”的Grok 3,竟未能正确回答这个问题,引发了网友的一片嘲讽,戏称其为“天才不屑回答简单问题”。
不仅如此,在xAI发布会直播中,当Grok 3被要求对游戏《流放之路 2》的职业与升华效果进行分析时,也给出了大量错误答案。更令人意外的是,即便是马斯克本人,也未能察觉这些显而易见的错误。
尽管在官方PPT中,Grok 3在大模型竞技场Chatbot Arena中的表现看似遥遥领先,但实际上,其与DeepSeek R1和GPT4.0的差距仅有1%到2%。这一数据无疑给Grok 3的“领先”地位打上了一个大大的问号。
在发布会上,马斯克透露,为了打造Grok 3,他们使用了超过20万张H100芯片,总训练小时数更是达到了惊人的两亿小时。然而,与之形成鲜明对比的是,DeepSeek V3仅使用了2000张H800芯片,训练时间也仅有两个月,但其性能却与Grok 3相差无几。这一现象表明,随着模型规模的不断扩大,性能提升的边际效应已经越来越明显。
面对外界的质疑,马斯克在社交媒体上表示,当前的Grok 3仅为测试版,完整版将在未来几个月内推出,并诚邀用户反馈使用中的问题。这一表态,无疑为Grok 3的未来留下了一丝悬念。