近日,人工智能领域的一则新闻引起了广泛关注。据报道,斯坦福大学和华盛顿大学的研究人员李飞飞等人,以极低的云计算成本——不到50美元,成功打造了一个名为s1的人工智能推理模型。该模型在数学和编码测试中的表现,据说与业界领先的OpenAI的O1和DeepSeek的R1等模型不相上下。
这一消息在AI界引起了轩然大波。然而,随着《科创板日报》记者的深入调查和业内人士的采访,s1模型的“低成本奇迹”背后的真相逐渐浮出水面。原来,s1模型的训练并非从零开始,而是基于阿里云的通义千问(Qwen)模型进行了监督微调。这意味着,s1模型的低成本是建立在已经具备强大推理能力的开源基础模型之上的。
据青年AI科学家、上海交通大学人工智能学院副教授谢伟迪介绍,仔细研读斯坦福s1的论文后不难发现,s1模型的神奇之处在于它利用了通义千问模型作为基座进行微调。这1000个样本数据在训练中的作用更像是“点睛之笔”,而非构建全新模型的基础。一位国内知名大模型公司的CEO也向《科创板日报》记者透露,所谓的50美元训练新模型,实际上是用从谷歌模型中提炼的1000个样本对通义千问模型进行微调。这种微调的成本确实低廉,但显然是站在了既有领先模型的肩膀上。
斯坦福s1论文原文中也明确注明了模型是以阿里通义千问模型为基础进行微调的。谢伟迪指出,国内外还有多个团队声称以极低成本训练出了具备推理能力的新模型,但仔细阅读其论文原文后,会发现它们都是基于通义模型作为基座进行的微调。
国外多位人工智能研究者也指出,许多所谓的“新”模型都是建立在通义模型的基础之上的。谢伟迪强调,以通义千问模型为基座,确实可以用极少的样本数据就达到产生新推理模型的效果,但如果换成其他基座模型,新模型的能力并不会有任何提升。因此,真正神奇的是Qwen模型,而非s1。
尽管s1模型的低成本训练在一定程度上展示了AI训练的潜力,但其局限性也不容忽视。首先,这种低成本训练方法依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型作为支撑,低成本训练的效果将大打折扣。其次,1000个样本数据的训练量在大多数情况下是不足以应对复杂任务的。低成本训练的成功也引发了关于AI模型知识产权和伦理问题的讨论。越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进行深入探讨和解决。