近日,科技界巨头马斯克携其xAI团队,在一场备受瞩目的直播活动中,隆重推出了备受期待的人工智能系统Grok 3。此前,马斯克通过一系列预热活动,已将公众对Grok 3的期待值推至顶峰。
然而,在发布会上,马斯克虽宣称Grok 3在数学、科学与编程领域的基准测试中超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算,甚至预测其将在未来三年内取得诺贝尔奖级别的突破,但随后的实际测试却暴露了一些问题。
发布会结束后,部分媒体对Grok 3的Beta版进行了测试,并提出了一个经典难题:“9.11与9.9哪个大?”令人惊讶的是,这个被誉为“地球上最聪明的人工智能”的Grok 3,竟未能正确回答这一问题,引发了网友们的调侃,戏称其为“天才不屑于回答简单问题”。
据相关报道,记者针对此问题测试了包括阿里通义千问、百度文心一言在内的12个大模型。结果显示,阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确答案,而ChatGPT-4o、字节豆包、月之暗面kimi等多个大模型均回答错误,且错误方式各不相同。值得注意的是,即便是在限定了数学语境的情况下,部分大模型如ChatGPT仍未能给出正确答案。
业内人士指出,大模型在数学能力上的欠缺是一个长期存在的问题。由于生成式语言模型的设计更偏向于文科思维,而非理科逻辑,这在一定程度上限制了其在数学领域的表现。不过,也有观点认为,通过针对性的语料训练,未来有望逐步提高模型的理科能力。
在xAI发布会直播中,当Grok 3被用来分析游戏《流放之路 2》的职业与升华效果时,也暴露出了大量错误答案。令人惊讶的是,即便是这些明显的错误,马斯克也未能及时发现。
面对这些质疑,马斯克在社交媒体上迅速回应,表示“Grok 3版本本周每天都会进行快速改进”,并诚邀用户反馈使用过程中遇到的问题。这一态度显示了马斯克对于Grok 3发展的重视,也体现了他对于用户反馈的珍视。
尽管Grok 3在发布初期遭遇了一些挫折,但马斯克的积极回应和持续改进的承诺,无疑为这一项目的未来发展注入了新的活力。公众对于Grok 3的期待并未因此减少,反而更加关注其后续的改进和优化。