ITBear旗下自媒体矩阵:

Grok 3遭遇“滑铁卢”,连9.11和9.9大小都分不清?马斯克承诺日更改进

   时间:2025-02-19 15:57:48 来源:齐鲁晚报·齐鲁壹点作者:齐鲁晚报·齐鲁壹点编辑:快讯团队 发表评论无障碍通道

近日,科技界巨头马斯克携其xAI团队,在一场备受瞩目的直播活动中,隆重推出了备受期待的人工智能系统Grok 3。此前,马斯克通过一系列预热活动,已将公众对Grok 3的期待值推至顶峰。

然而,在发布会上,马斯克虽宣称Grok 3在数学、科学与编程领域的基准测试中超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算,甚至预测其将在未来三年内取得诺贝尔奖级别的突破,但随后的实际测试却暴露了一些问题。

发布会结束后,部分媒体对Grok 3的Beta版进行了测试,并提出了一个经典难题:“9.11与9.9哪个大?”令人惊讶的是,这个被誉为“地球上最聪明的人工智能”的Grok 3,竟未能正确回答这一问题,引发了网友们的调侃,戏称其为“天才不屑于回答简单问题”。

据相关报道,记者针对此问题测试了包括阿里通义千问、百度文心一言在内的12个大模型。结果显示,阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确答案,而ChatGPT-4o、字节豆包、月之暗面kimi等多个大模型均回答错误,且错误方式各不相同。值得注意的是,即便是在限定了数学语境的情况下,部分大模型如ChatGPT仍未能给出正确答案。

业内人士指出,大模型在数学能力上的欠缺是一个长期存在的问题。由于生成式语言模型的设计更偏向于文科思维,而非理科逻辑,这在一定程度上限制了其在数学领域的表现。不过,也有观点认为,通过针对性的语料训练,未来有望逐步提高模型的理科能力。

在xAI发布会直播中,当Grok 3被用来分析游戏《流放之路 2》的职业与升华效果时,也暴露出了大量错误答案。令人惊讶的是,即便是这些明显的错误,马斯克也未能及时发现。

面对这些质疑,马斯克在社交媒体上迅速回应,表示“Grok 3版本本周每天都会进行快速改进”,并诚邀用户反馈使用过程中遇到的问题。这一态度显示了马斯克对于Grok 3发展的重视,也体现了他对于用户反馈的珍视。

尽管Grok 3在发布初期遭遇了一些挫折,但马斯克的积极回应和持续改进的承诺,无疑为这一项目的未来发展注入了新的活力。公众对于Grok 3的期待并未因此减少,反而更加关注其后续的改进和优化。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version