在科技界的新篇章中,DeepSeek无疑成为了万众瞩目的焦点。自其问世以来,不仅在全球范围内引发了AI产业链的连锁反应,还令OpenAI、英伟达等科技巨头为之震动,仿佛一场科技风暴悄然席卷而来。
DeepSeek的表现确实令人瞩目。数据显示,仅上线五天,其日活跃用户便超越了ChatGPT,而到了第二十天,日活更是突破了2000万人次大关,占据了ChatGPT日活的23%。这一增速,无疑使DeepSeek成为了全球范围内增长最快的AI应用。
国外AI领域的惊讶之余,国内AI圈则是一片欢腾。阿里云、百度云、腾讯云、字节火山引擎等国内科技巨头纷纷宣布支持DeepSeek,同时,百度昆仑芯、天数智芯、摩尔线程等企业也相继表态,将支持DeepSeek模型。这无疑标志着,在全球AI竞赛的赛道上,国产厂商再次迈出了坚实的一步。
然而,DeepSeek的成功并非毫无争议。关于其是否真正实现了大模型的技术突破,业界存在着诸多质疑。有观点认为,DeepSeek之所以能实现低成本训练,是因其大幅缩减了模型参数规模,或是依赖于其母公司幻方早期囤积的廉价算力。这些质疑,虽不无道理,但却难以掩盖DeepSeek所展现出的独特魅力。
事实上,DeepSeek在缩减模型参数的同时,也展现出了惊人的性能。例如,DeepSeek-R1在参数量仅为1.5亿的情况下,便在数学基准测试中超越了GPT-4等大模型。轻量化模型在推理能力与性能方面本就更为出色,且训练和运行成本更低。DeepSeek以不到GPT-4五十分之一的价格提供了相似的性能,从而在中小型企业和个人开发者中赢得了市场。
幻方对DeepSeek的助力,与其说是偶然的资本游戏,不如说是国产大模型发展的必然结果。作为国内首批闯入大模型赛道的企业,幻方早在2017年便宣称要实现投资策略的全面AI化。此后,幻方在AI领域的投入持续增长,从“萤火一号”到“萤火二号”,其自研的深度学习训练平台不断升级,为DeepSeek的诞生奠定了坚实的基础。
不可否认,当前国内已具备培育DeepSeek式AI应用的客观条件。数据显示,国内人工智能相关企业已超过4500家,核心产业规模接近6000亿元人民币。芯片、算法、数据、平台、应用等各个环节均在快速发展,人工智能的普及率也达到了16.4%。
然而,DeepSeek的技术路径依赖风险依然存在。尤其是其“数据蒸馏技术”,更是饱受争议。虽然DeepSeek并非首个使用数据蒸馏的大模型,但“过度蒸馏”已成为当前人工智能赛道的一大问题。有专家指出,过度依赖蒸馏可能导致基础研究停滞,降低模型多样性。因此,DeepSeek乃至整个国产大模型赛道仍需不断自我验证。
与此同时,DeepSeek的开源模式也引发了全球科技圈对开源、闭源的激烈讨论。自meta源代码泄露风波后,LLama 2的开源可商用版本便掀起了一股开源狂潮。国内诸如悟道、百川智能、阿里云等企业也纷纷加入开源大模型的行列。2024年全年,开源大模型品牌数量超过10个,2025年初更是层出不穷。
开源模型能在短时间内获得大量关注,这一点毋庸置疑。LLama 2发布之初,便在Hugging Face检索模型上获得了超6000个结果。而DeepSeek的快速走红,也与其开源模式密不可分。当前,接入DeepSeek系列模型的企业数不胜数,云厂商、芯片厂商、应用端企业纷纷涌入这一领域。在AI需求日益旺盛的当下,大模型开源似乎更能促进AI生态的繁荣。
然而,开源与否并非绝对。在全球科技领域,开源AI公司往往不受资本欢迎,反而是闭源AI企业在融资方面更具优势。开源AI的定义也日益复杂。全球开放源代码促进会发布的新定义指出,AI大模型若要被视为开源,需满足训练数据透明性、完整代码、模型参数等三个要点。这也使得DeepSeek等模型在开源问题上备受质疑。
尽管DeepSeek在某些方面带来了突破,缓解了全球大模型赛道的“垄断诅咒”,但算力需求依然不可忽视。即便DeepSeek目前仅支持文字问答、读图、读文档等功能,其服务器也已接近崩溃边缘。一旦涉足图片、音频和视频生成领域,算力需求将呈爆炸式增长。视频生成类模型与语言模型之间的算力需求差距巨大,这一点不容忽视。
数据显示,2010年至2023年间,AI算力需求翻了数十万倍,远超摩尔定律的增长速度。进入2025年,随着OpenAI发布首个AI Agent产品Operator,超级算力场景或将引爆。这将进一步推动全球各大AI企业对算力的建设。
DeepSeek虽绕开了“芯片大关”,但优质的算力基础设施在相同投入下往往会提供更高的算力效率与商业回报。因此,大模型赛道的“追芯”游戏并未结束。英伟达下一代GPU GB300可能出现关键硬件规格变化,而国内AI芯片国产化进程也在加速推进。种种迹象表明,算力建设依然任重道远。