ITBear旗下自媒体矩阵:

梁文锋领衔DeepSeek再突破!新模块Engram让AI“记性”飙升,成本大降

   时间:2026-01-13 12:53:33 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

当全球AI领域还在为模型参数规模和训练算力展开激烈竞争时,中国团队DeepSeek与北京大学联合推出了一项突破性技术——可扩展查找的条件记忆模块Engram,这项成果或将彻底改变大语言模型的发展路径。其配套开源代码的发布,标志着中国AI研究在底层架构创新领域迈出关键一步。

传统Transformer架构的固有缺陷长期制约着AI发展。以GPT系列为代表的模型在处理"爱因斯坦是谁"这类基础问题时,需要调动全部神经网络进行重复计算,这种"暴力检索"模式不仅消耗大量电能,更导致响应速度迟缓。实验数据显示,现有模型在回答常识性问题时,神经元激活量是复杂推理任务的3-7倍,形成严重的算力浪费。

Engram模块的突破性在于构建了三级记忆体系:基础层存储实体名称、固定搭配等原子知识;中间层记录常用短语结构;顶层整合领域特定知识图谱。这种分层存储设计使模型在推理时可直接调用预存记忆条目,将常识性问题的响应时间缩短至微秒级。在270亿参数模型的测试中,配备Engram的版本在数学解题速度上提升42%,代码调试准确率提高37%,而能耗仅增加8%。

技术团队通过动态稀疏激活机制解决了记忆检索与深度推理的平衡问题。当输入问题涉及基础事实时,系统自动激活记忆模块;需要多步逻辑推导时,则切换至传统神经网络计算。这种"双引擎"架构使模型在保持智能水平的同时,推理能耗降低55%,特别适合移动端部署。实验表明,在相同硬件条件下,新模型可同时支持128路实时对话,较前代提升8倍。

开源社区对这项技术表现出极大热情。发布首周即获得超过2.3万次代码克隆,开发者已将其应用于医疗诊断、法律文书生成等垂直领域。某三甲医院开发的AI辅助诊断系统,通过集成Engram模块将常见病症识别准确率提升至92%,响应时间压缩至0.8秒。教育领域的应用测试显示,配备该模块的AI家教在数学辅导场景中,学生解题效率提高40%。

这项创新对全球AI格局产生深远影响。在算力成本持续攀升的背景下,Engram技术为资源有限的研究团队提供了弯道超车的机会。据测算,采用该架构可使模型训练成本降低60%,特别适合发展中国家的AI应用推广。国际AI伦理组织负责人评价称:"这标志着AI发展从算力竞赛转向效率革命,为可持续发展提供了新范式。"

DeepSeek的技术路线图显示,Engram模块将与先前发布的mHC训练框架、NSA稀疏注意力机制形成技术矩阵。这种组合方案有望解决大模型训练中的稳定性难题,使千亿参数模型的训练成功率从62%提升至89%。业内人士推测,即将发布的DeepSeek-R2模型可能成为首个完整集成这套技术体系的商用产品。

在硅谷科技巨头忙于扩建数据中心时,中国研究者选择深耕底层技术创新。这种差异化的技术路径,正在重塑全球AI竞争的规则。正如斯坦福大学人工智能实验室主任所言:"当别人在堆砌参数时,中国团队正在重新定义智能的本质。"这项突破或许预示着,AI发展的下一个十年,将属于那些能突破架构瓶颈的创新者。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version