近日,Nature自然杂志刊文指出,中国研发的大型语言模型DeepSeek-R1在科学界引发了广泛热议,被视为OpenAI的o1推理模型的强劲对手,不仅经济实惠且更加开放。
据悉,DeepSeek-R1通过逐步生成响应的方式,模拟人类的推理过程,这一特性使其在解决科学问题上表现出色,并在研究中展现出巨大潜力。初步测试显示,DeepSeek-R1在化学、数学及编码等领域的特定任务上,表现与OpenAI的o1模型旗鼓相当。o1模型曾在去年9月发布时,令研究人员惊叹不已。
英国人工智能咨询公司DAIR.AI的联合创始人埃尔维斯·萨拉维亚在社交媒体上惊叹道:“这简直令人难以置信,完全出乎我的预料。”
DeepSeek-R1之所以备受瞩目,还有一个重要原因,即其背后的杭州初创公司DeepSeek选择将其作为开放模型发布。这意味着研究人员可以深入研究并构建该算法。该模型依据麻省理工学院的许可证发布,允许自由重复使用,但训练数据尚未公开,因此并不被视为完全开源。
德国埃尔朗根马克斯普朗克光科学研究所的人工智能科学家马里奥·克伦对DeepSeek的开放性表示高度赞赏,并指出OpenAI的o1及其他模型本质上都是黑匣子。
在成本方面,DeepSeek-R1也展现出显著优势。虽然DeepSeek尚未公布训练R1的全部成本,但其界面收费仅为o1运行成本的三十分之一。该公司还推出了R1的迷你精简版本,以满足计算能力有限的研究人员的需求。
“使用o1进行实验的成本超过370美元,而使用R1的成本则不到10美元。”克伦说道,“这是一个巨大的差异,无疑将对其未来的普及产生深远影响。”
DeepSeek-R1的成功,是中国大型语言模型热潮的一个缩影。DeepSeek从一家对冲基金中分拆出来,凭借一款名为V3的聊天机器人一举成名。尽管预算有限,但V3的表现却超越了主要竞争对手。专家估算,训练V3所需的硬件成本约为600万美元,而meta的Llama 3.1 405B则高达6000万美元,计算资源是V3的11倍。
尽管面临美国出口管制的限制,中国公司难以获得为人工智能处理而设计的最佳计算机芯片,但DeepSeek仍然成功制造出了R1。这进一步证明了高效利用资源的重要性。
DeepSeek的进展也表明,美国在人工智能领域的领先优势已经大幅缩小。华盛顿州贝尔维尤的技术专家Alvin Wang Graylin在社交媒体上写道:“中美两国需要采取合作的方式,共同推动人工智能的发展,而不是继续目前这种没有胜算的军备竞赛。”
在技术上,DeepSeek-R1通过采用思路链方法,提高了解决更复杂任务的能力。同时,DeepSeek还利用强化学习对V3进行微调,制作出R1。在强化学习过程中,该团队估算模型在每个阶段的进度,而非使用单独的网络进行评估,这有助于降低培训和运行成本。
基准测试显示,DeepSeek-R1在加州大学伯克利分校研究人员编写的数学问题MATH-500中取得了97.3%的成绩,并在一项名为Codeforces的编程竞赛中击败了96.3%的人类参与者。这些能力与o1不相上下。然而,基准测试是否真正反映了模型的推理或概括能力,尚需进一步探讨。
科学家们已经开始测试DeepSeek-R1的能力。马里奥·克伦要求两个竞争模型对3000个研究想法进行有趣程度排序,并将结果与人工排名进行比较。结果显示,R1的表现略逊于o1。但在量子光学的某些计算上,R1却胜过了o1。“这相当令人印象深刻。”克伦表示。
随着DeepSeek-R1的成功推出,中国大型语言模型的发展势头愈发强劲。未来,这些模型将在科学研究、技术应用等领域发挥更加重要的作用。