一款国产开源大模型DeepSeek-V3,近期在AI领域引发了广泛关注,不仅在国内备受瞩目,更是在国际舞台上大放异彩。
DeepSeek-V3由国内AI公司DeepSeek(深度求索)研发推出,该公司在论文中声称,综合评估显示,DeepSeek-V3已成为目前最强大的开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。这一说法得到了多位AI领域大咖的认可,包括阿里前副总裁贾扬清、metaAI科学家田渊栋以及英伟达高级研究科学家Jim Fan等。
DeepSeek-V3的训练成本远低于其他大型AI模型。据论文介绍,该模型仅用了2000多张GPU,训练成本不到600万美元,远远低于OpenAI、meta等在万卡规模上训练的模型成本。这一成本优势使得DeepSeek-V3在AI界引起了轰动,有网友甚至认为,这将推动AGI(通用人工智能)的实现比预期更早,且能以更低的成本。
DeepSeek-V3是一款自研的MoE(混合专家架构)模型,参数规模达到了6710亿,在14.8T tokens上进行了预训练,上下文长度为128K。评测结果显示,该模型在多个主流评测基准上表现优异,特别是在代码和数学方面,不仅碾压了阿里和meta的最新开源模型,还超越了GPT-4o和Claude-3.5-Sonnet。
不过,尽管DeepSeek-V3在多个方面表现出色,但仍存在一些局限性。例如,其英文能力还落后于GPT-4o和Claude-Sonnet-3.5,同时部署要求较高,对小型团队不太友好,且生成速度还有提升潜力。DeepSeek在论文中表示,随着更先进硬件的开发,这些局限性有望得到解决。
那么,DeepSeek-V3是如何在如此低的成本下,训练出可以媲美OpenAI、meta的最强开闭源模型的呢?据了解,DeepSeek在模型架构、训练框架、推理部署、硬件设计、数据构建等方面都进行了组合式的工程创新,提出了很多节约算力、提升效率的策略,并保证了模型效果。
具体来说,DeepSeek-V3依然基于Transformer框架,但采用了MLA(多头潜在注意力)和独创的DeepSeekMoE(混合专家架构),共同推动了算力成本的下降。同时,该模型还设计了FP8混合精度训练框架,并验证了其可行性和有效性,这在主流选择框架BF16的背景下,可以说是一个比较大的突破。DeepSeek-V3还在训练语料库中提高了数学和编程样本的比例,扩展了多语言覆盖范围,在后训练阶段使用了模型生成的数据,并利用强化学习的奖励机制,从而提升了模型性能。
DeepSeek-V3的出圈也让背后公司DeepSeek进一步获得关注。这家公司位于杭州,成立于2023年7月,创始人是颇为低调的80后梁文锋。他不仅是量化私募四巨头之一幻方的实控人,还是DeepSeek的掌舵者。梁文锋本硕就读于浙江大学,学的是电子工程系AI方向,后来主要在量化投资领域进行研究,2015年创立了幻方量化。
随着2023年大模型浪潮爆发,梁文锋把幻方做大模型的团队独立为DeepSeek。DeepSeek追求的是AGI,且不做垂类和应用,短期内也不会融资。他强调,研究和技术创新永远是第一优先级,并非常认可开源的价值。DeepSeek-V3的论文在最后列出了约200位贡献者,包括150位研发和工程人员,30多位数据标注人员和18位商业合规人员。
值得注意的是,名单中还包括了最近引发关注的“95后天才”罗福莉。她硕士毕业于北京大学计算语言学研究所,毕业后加入了阿里达摩院,2022年加入幻方量化,后转入DeepSeek参与了DeepSeek-V2的研发。今年,罗福莉被雷军亲自下场挖人,入职小米领导大模型团队,薪酬或在千万元级别。
DeepSeek-V3的成功无疑为大模型的发展路径提供了新的可能,并再次验证了创新才是实现技术理想的关键。这款模型的出现,不仅让DeepSeek在AI界崭露头角,更为国内AI领域的发展注入了新的活力。