在科技界万众瞩目的时刻,DeepSeek并未按预期推出DeepSeek-R2,而是于8月21日意外宣布了DeepSeek-V3.1版本的发布,这一举措迅速点燃了市场的热情。
当日,DeepSeek概念股表现抢眼,股市收盘时,三未信安、天融信、北信源等股票领涨市场,路桥信息、每日互动、万顺新材等多只个股涨幅超过10%。
不仅如此,DeepSeek还宣布了一项重要调整:自北京时间2025年9月6日凌晨起,将对开放平台API接口调用价格进行上调。具体而言,DeepSeek-V3.1在缓存命中的情况下,每百万输入tokens价格为0.5元,缓存未命中则为4元;而每百万输出tokens的价格则由原先的8元上调至12元。同时,DeepSeek取消了原有的夜间时段优惠。
此次DeepSeek-V3.1的发布,标志着其加速迈入了Agent时代。那么,这次更新究竟带来了哪些亮点呢?
据DeepSeek官方介绍,V3.1版本实现了混合推理架构,即一个模型能够同时支持思考模式与非思考模式,为用户提供更多选择。新版本的思考效率得到了显著提升,相较于DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短的时间内给出准确答案。更重要的是,DeepSeek-V3.1在Agent能力上取得了重大突破,特别是在编程智能体和搜索智能体的测试中,表现尤为突出。
在编程智能体方面,DeepSeek-V3.1在SWE-bench等复杂代码修复任务测试中,相较于之前的DeepSeek系列模型,性能有了显著提升。而在搜索智能体方面,DeepSeek-V3.1在多项搜索评测指标上均取得了较大进步,特别是在需要多步推理的复杂搜索测试与多学科专家级难题测试中,其性能已经大幅领先于DeepSeek-R1-0528。
同时,DeepSeek-V3.1在思考效率上也有所提升。经过思维链压缩训练后,V3.1-Think在减少输出token数的情况下,各项任务的平均表现仍然与R1-0528持平。V3.1在非思考模式下的输出长度也得到了有效控制,相较于DeepSeek-V3-0324,能够在输出长度明显减少的情况下保持相同的模型性能。
DeepSeek此次依然延续了开源的传统,并且支持更多API格式。在模型开源方面,DeepSeek-V3.1的Base模型在V3的基础上进行了外扩训练,增加了840B tokens的训练量。目前,Base模型与后训练模型均已在Huggingface与魔搭社区开源。
DeepSeek还增加了对Anthropic API的支持,使用户能够轻松将DeepSeek-V3.1的能力接入Claude Code框架,进一步拓展了其应用场景。
对于DeepSeek此次的更新,网友们反响热烈,评价褒贬不一。部分网友认为,DeepSeek-V3.1相较于之前的版本有所提升,特别是在Agent方向的努力令人瞩目。然而,也有部分网友表示,这次更新并没有带来太多惊喜,显得有些平淡。
事实上,近段时间以来,模型开源热潮不断涌动,各大模型快速迭代,似乎提高了人们对于模型的认知预期。智谱、阿里巴巴通义千问、阶跃星辰等国内模型纷纷推出新版本或开源新模型,竞争日益激烈。
太平洋证券研报指出,目前模型后训练阶段仍具备工程红利,国内外大模型持续拓展智能边界,且国内模型在开源领域表现突出。同时,各基础大模型均实现了通用Agent能力的提升,“模型即Agent”的范式或正在形成。