近日,人工智能领域迎来一项重要突破。北京大学与DeepSeek团队联合完成的一项研究,为大型语言模型的发展开辟了新路径。相关成果以论文形式发表,题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。
论文创新性地提出了“条件记忆”概念。与传统大模型架构不同,这一设计通过引入可扩展的查找记忆结构,在保持参数规模和算力需求不变的前提下,显著优化了模型在知识调用、逻辑推理、代码生成及数学计算等任务中的表现。这种改进为提升模型效率提供了全新思路,尤其适用于对计算资源敏感的应用场景。
作为技术落地的关键环节,DeepSeek团队同步开源了相关记忆模块Engram。这一举措不仅降低了行业门槛,也为后续研究提供了可复用的技术框架。值得注意的是,DeepSeek创始人梁文锋位列论文合著者名单,其持续的技术投入为项目推进提供了重要支持。
此次突破标志着大型语言模型在稀疏性优化领域迈出重要一步。通过重新定义记忆机制与计算资源的分配方式,研究团队为平衡模型性能与效率提供了新范式,相关成果有望推动人工智能技术在更多场景中的实际应用。











