在辞旧迎新的时刻,科技界也迎来了一场震撼人心的变革。一个名为DeepSeek的中国AI初创公司,以其最新发布的大模型DeepSeek-R1,在全球范围内掀起了轩然大波,成为了新年里科技领域最耀眼的新星。
DeepSeek此前就曾因其V3模型在硅谷引起轰动,但此次R1的发布,无疑是将这场风暴推向了新的高潮。meta的联合创始人对DeepSeek-R1赞不绝口,甚至不惜与批评者展开唇枪舌剑,足见其对这一技术的震撼程度。风投大佬马克·安德森也对DeepSeek-R1给予了高度评价,称其为对世界的一份深刻馈赠。
DeepSeek-R1的出色表现,迅速赢得了广大网友的青睐。许多原本使用ChatGPT的用户,纷纷转而投向DeepSeek的怀抱。DeepSeek的应用商店排名也因此飙升,一举登上了APPSTORE的榜首。
在国内,DeepSeek同样引发了巨大的反响。微博上与之相关的热搜话题不断,甚至一些非AI行业的圈外人也对其表现出了浓厚的兴趣。游戏开发者冯骥就在微博上感慨,DeepSeek的成就堪称“国运级别的科技成果”。
DeepSeek的成功并非偶然。据暗涌对DeepSeek创始人梁文锋的采访透露,DeepSeek是一个极其注重创新的公司。其V2、V3模型中的多头注意力机制,最初只是团队内一位年轻开发者的创意,经过团队的共同努力才得以实现。而这种创新驱动的技术突破,在DeepSeek团队内并不罕见。
然而,DeepSeek-R1的真正牛气之处,在于其路径创新。传统大模型训练注重标注数据微调(SFT)和强化学习(RL),但DeepSeek却摒弃了SFT,完全依靠强化学习来训练其推理模型。这种高强度的淬炼方式,使得DeepSeek-R1在仅花费600万美元、两个月时间的情况下,就达到了其他大厂花费数亿资金、数年时间才能达到的水平。
DeepSeek团队的研究人员还利用这种思路,在V3的基础上完全靠强化学习搞出了一个R1-Zero版本。Zero版本在训练中进化速度极快,很快就能与OpenAI-o1相抗衡,甚至在部分测试项目中还超越了o1。Zero不仅在推理能力上取得了显著进步,还表现出了主动复盘反思纠错的行为,这无疑是AI推理上的里程碑事件。
虽然Zero的推理能力已经得到了证明,但其输出的可读性较差,不符合人类预期。于是DeepSeek团队在Zero的基础上增加了一部分SFT训练,使得模型学会了说人话,从而诞生了DeepSeek-R1。经过这番“文理双修”后,R1的推理能力甚至进一步提高,在数学、代码和综合知识测试中均取得了优异成绩。
更为惊人的是,DeepSeek团队还将R1的SFT数据蒸馏后喂给其他小模型进行SFT,结果这些小模型的性能也得到了显著提升。这一发现不仅验证了“小模型,好老师”的技术路线,更让个人开发者也能调教出匹敌GPT-4的AI。这一成果无疑为全球开源社区带来了巨大的鼓舞和启示。
DeepSeek的成功,不仅证明了开源模型的实力,更向世界展示了中国年轻人的潜力和开创精神。正如梁文锋所说:“中国AI不可能永远处在跟随的位置。”DeepSeek的崛起,无疑为中国AI行业的发展注入了新的活力和信心。