ITBear旗下自媒体矩阵:

李飞飞团队s1模型:50美元背后的通义千问监督微调真相

   时间:2025-02-07 17:53:04 来源:钛媒体APP作者:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,AI领域再次掀起波澜,一项由斯坦福大学和华盛顿大学研究人员主导的新研究引发了广泛关注。据报道,该研究团队以极低的成本——不到50美元的云计算费用,成功训练出了一款名为s1的人工智能推理模型,其表现据称与OpenAI的O1和DeepSeek的R1等尖端模型不相上下。

然而,深入探究后发现,这一“复刻奇迹”背后,实则站在了巨人的肩膀上。s1模型的训练并非从零开始,而是基于阿里云的通义千问Qwen2.5-32B-Instruct这一开源基础模型进行的有监督微调。研究团队精心策划了一个包含1000个问题的小型数据集s1K,这些问题均配有详细的推理过程和答案,涵盖了数学、科学等多个领域。通过在这个小数据集上进行微调,并结合一种名为“预算强制”的测试时技术,s1模型得以在保持性能的同时,有效控制了测试时的计算量。

“预算强制”技术的核心在于,通过强制结束或延长模型的思考过程,来优化其性能。这种方法使得模型能够在生成答案的过程中进行二次检查,从而修正错误的推理步骤。实验结果显示,在使用s1K对Qwen2.5-32B-Instruct进行微调,并配备“预算强制”功能后,s1-32B模型在竞赛数学问题上的表现甚至超过了O1-preview模型。

尽管s1模型的训练成本极低,但这50美元仅涵盖了云计算服务费用,并未包括服务器、显卡等硬件投入。实际上,训练过程是在16个NVIDIA H100 GPU上进行的,用时仅需26分钟。这一低成本高效率的训练方式,无疑为AI领域的研究提供了新的思路。

对于“50美元复刻DeepSeek”的说法,DeepSeek方面并未直接回应。但当被问及通过蒸馏监督微调进行模型训练的看法时,DeepSeek表示,这是一种有效的模型训练方法,尤其在模型压缩、迁移学习和性能提升方面具有显著优势。DeepSeek还从技术背景、优势与挑战等多个角度对蒸馏监督微调进行了详细分析。

事实上,蒸馏监督微调在AI模型训练中并不罕见。许多主流大模型,如DeepSeek-R1和Kimi k1.5等,都采用了这种方法。这证明了蒸馏在提升模型性能方面的有效性。然而,值得注意的是,蒸馏毕竟是建立在强大开源模型的基础之上,其效果并非小模型自身所能达到。

尽管如此,s1模型的案例仍然为AI领域的研究提供了新的启示。它表明,通过合理的数据集策划、有效的训练策略以及创新的测试时技术,即使在低成本的条件下,也能够训练出具有强大推理能力的AI模型。这一发现无疑将激发更多研究者对于低成本高效能AI模型的探索。

s1模型的训练过程也凸显了云计算在AI领域的重要性。随着云计算技术的不断发展,越来越多的AI研究将能够借助云端强大的计算能力,实现低成本高效率的训练。这将进一步推动AI技术的普及和应用,为人类社会带来更多的便利和创新。

s1模型的诞生不仅展示了AI领域研究的最新成果,更为未来的研究提供了宝贵的经验和启示。尽管“50美元复刻DeepSeek”的说法略显夸张,但s1模型所展现出的低成本高效率的训练方式,无疑将为AI技术的发展注入新的活力。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version