ITBear旗下自媒体矩阵:

DeepSeek开源Engram新架构:梁文锋参与论文,V4或迎记忆推理协同新突破

   时间:2026-01-13 15:31:49 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,人工智能领域迎来一项突破性进展——DeepSeek在GitHub平台开源了全新模块Engram,并同步发布论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。该技术通过创新性的“查—算分离”机制,重新定义了大语言模型的架构设计,引发学术界与开发者社区的广泛关注。

传统大模型架构普遍采用Transformer与混合专家模型(MoE)结合的方式,通过动态路由机制实现参数稀疏激活。然而,这种设计存在根本性矛盾:模型参数需同时承担“记忆存储”与“逻辑推理”双重职能。例如,回答“法国首都”这类事实性问题时,模型需依赖参数中的静态知识;而解析复杂代码逻辑时,则需激活神经网络进行动态计算。这种混合模式导致参数效率低下——增加知识存储量必然伴随计算成本指数级上升,即便MoE架构通过部分专家激活缓解了算力压力,仍无法解决“用矩阵运算模拟查表检索”的效率问题。

Engram模块的提出直指这一痛点。其核心创新在于将记忆检索与神经计算彻底解耦:通过现代化哈希N-Gram嵌入技术,将输入文本切割为连续N个词的片段,并利用哈希算法将这些片段映射至可学习的巨型查找表。由于采用确定性寻址与O(1)时间复杂度的检索机制,无论记忆库规模如何扩大,单次查询的算力消耗始终恒定。这种设计使得模型在保持270亿参数规模的同时,可将大部分参数用于静态知识存储,而实际推理阶段的计算量仅集中在MoE专家模块的逻辑处理上。

论文详细对比了Engram与MoE的技术差异:前者通过条件化静态记忆查找实现稀疏性,目标在于减少已知模式的神经重建;后者则通过条件激活神经专家实现稀疏性,重点降低活跃神经计算量。在架构位置上,Engram模块被置于Transformer层早期阶段,负责在逻辑推理前完成背景事实检索与模式重构,为后续MoE专家提供“预制素材”。这种分工使模型在知识调用、数学推理、代码生成等任务上的表现显著提升,实验数据显示,在等参数条件下,Engram架构的模型性能超越传统密集模型达17%。

开发者社区对这项技术给予高度评价。Reddit用户指出,Engram的确定性寻址机制允许将嵌入表卸载至主机内存,大幅降低推理开销,即便在无GPU环境下也能实现高效部署。另有技术评论认为,该设计本质上是对传统NLP技术的现代化升级——将n-gram嵌入与神经网络结合,既保留了查表检索的确定性优势,又通过MoE专家模块维持了复杂推理能力。X平台上有开发者调侃:“原本计划借鉴谷歌的技术路线,现在不得不转向DeepSeek,因为它的架构更优雅。”

目前,Engram的代码与论文已在GitHub平台完全开源。有消息称,这项技术或将应用于DeepSeek下一代模型V4中,通过记忆与推理的架构级协同,推动大语言模型向更高效、更智能的方向演进。学术界普遍认为,Engram提出的“稀疏性新维度”为模型优化提供了全新范式,其影响可能超越单一技术突破,重新定义AI基础设施的设计逻辑。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version