杭州初创企业深度求索在人工智能领域掀起波澜,近日宣布推出低成本大语言模型DeepSeek V3。这一消息不仅震惊了科技界,还引发了对AI模型训练成本的新一轮讨论。
据悉,DeepSeek V3在多个评测中表现出色,包括百科知识、代码理解和数学能力等方面。在与阿里云Qwen2.5-72B和meta的Llama-3.1-405B等开源模型的对比中,DeepSeek V3得分更高,甚至与顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。特别是在数学领域,DeepSeek V3在美国数学竞赛(AIME 2024)和中国全国高中数学联赛(2024)中的表现更是遥遥领先。
然而,更令人惊讶的是DeepSeek V3的训练成本。根据深度求索公布的技术论文,该模型的训练成本仅为557万6000美元,远低于同类模型所需的数亿美元。这一低成本得益于深度求索自研的混合专家(Mixture of Experts)和多头潜在注意力(Multi-head Latent Attention)架构,该架构优化了算力资源的分配,使得每个任务都能自动分配给最适合的专家模型解决。
与ChatGPT等采用强化学习架构的模型不同,DeepSeek V3的训练过程更加高效。它使用了2048张英伟达H800晶片,总训练时长为278万个GPU小时,相比之下,Llama-3.1则需要1万6000张更先进的H100晶片和3080万个GPU小时。这一显著的效率提升使得DeepSeek V3在性价比上具有极大的优势。
深度求索是量化巨头幻方量化的子公司,成立于2023年4月。尽管与科技巨头无直接关联,但深度求索凭借其在AI领域的深厚积累和创新精神,迅速崭露头角。其创始人梁文锋表示,他们并非有意成为行业的搅局者,而是希望通过技术创新降低AI模型的门槛,让更多人能够享受到AI带来的便利。
事实上,深度求索已经在这一领域取得了显著的成果。其上一代模型DeepSeek V2在性能上比肩GPT-4 Turbo,但价格却只有后者的百分之一。这一价格优势迅速引发了行业内的价格战,迫使多家大厂纷纷调整价格策略。梁文锋认为,无论是API还是AI本身,都应该是普惠的、人人可以用得起的东西。
深度求索的成功不仅为中国AI企业树立了榜样,也为全球AI行业的发展提供了新的思路。在AI技术日新月异的今天,无论是美国还是中国企业,都在不断探索新的赛道和机遇。而深度求索所开辟的低成本大模型赛道,无疑为这一领域的竞争注入了新的活力。