滚动资讯

当前位置：财经 > 信息流 > 正文内容

DeepSeek开源Engram新架构：梁文锋参与论文，V4或迎记忆推理协同新突破

时间：2026-01-13 15:31:49 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

近日，人工智能领域迎来一项突破性进展——DeepSeek在GitHub平台开源了全新模块Engram，并同步发布论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。该技术通过创新性的“查—算分离”机制，重新定义了大语言模型的架构设计，引发学术界与开发者社区的广泛关注。

传统大模型架构普遍采用Transformer与混合专家模型（MoE）结合的方式，通过动态路由机制实现参数稀疏激活。然而，这种设计存在根本性矛盾：模型参数需同时承担“记忆存储”与“逻辑推理”双重职能。例如，回答“法国首都”这类事实性问题时，模型需依赖参数中的静态知识；而解析复杂代码逻辑时，则需激活神经网络进行动态计算。这种混合模式导致参数效率低下——增加知识存储量必然伴随计算成本指数级上升，即便MoE架构通过部分专家激活缓解了算力压力，仍无法解决“用矩阵运算模拟查表检索”的效率问题。

Engram模块的提出直指这一痛点。其核心创新在于将记忆检索与神经计算彻底解耦：通过现代化哈希N-Gram嵌入技术，将输入文本切割为连续N个词的片段，并利用哈希算法将这些片段映射至可学习的巨型查找表。由于采用确定性寻址与O(1)时间复杂度的检索机制，无论记忆库规模如何扩大，单次查询的算力消耗始终恒定。这种设计使得模型在保持270亿参数规模的同时，可将大部分参数用于静态知识存储，而实际推理阶段的计算量仅集中在MoE专家模块的逻辑处理上。

论文详细对比了Engram与MoE的技术差异：前者通过条件化静态记忆查找实现稀疏性，目标在于减少已知模式的神经重建；后者则通过条件激活神经专家实现稀疏性，重点降低活跃神经计算量。在架构位置上，Engram模块被置于Transformer层早期阶段，负责在逻辑推理前完成背景事实检索与模式重构，为后续MoE专家提供“预制素材”。这种分工使模型在知识调用、数学推理、代码生成等任务上的表现显著提升，实验数据显示，在等参数条件下，Engram架构的模型性能超越传统密集模型达17%。

开发者社区对这项技术给予高度评价。Reddit用户指出，Engram的确定性寻址机制允许将嵌入表卸载至主机内存，大幅降低推理开销，即便在无GPU环境下也能实现高效部署。另有技术评论认为，该设计本质上是对传统NLP技术的现代化升级——将n-gram嵌入与神经网络结合，既保留了查表检索的确定性优势，又通过MoE专家模块维持了复杂推理能力。X平台上有开发者调侃：“原本计划借鉴谷歌的技术路线，现在不得不转向DeepSeek，因为它的架构更优雅。”

目前，Engram的代码与论文已在GitHub平台完全开源。有消息称，这项技术或将应用于DeepSeek下一代模型V4中，通过记忆与推理的架构级协同，推动大语言模型向更高效、更智能的方向演进。学术界普遍认为，Engram提出的“稀疏性新维度”为模型优化提供了全新范式，其影响可能超越单一技术突破，重新定义AI基础设施的设计逻辑。

更多>同类资讯

深圳网红野景点望郎归突发意外一男子徒步摔倒昏迷后离世引关注

社交媒体视频显示，一男子倒在地上，多名救援人员在施救。视频发布者称，一名中年男子在山顶下撤不远的下坡处摔倒。12日上午，一名自称在现场的游客告诉记者，摔倒的男子磕到了头，出事的地方救援人员很难到达。 12日…

01-13

从抗战护宝到和平失职：贵州省博29件文物丢失，谁该为信任崩塌买单？

反观如今的博物馆搬迁，既无严密登记制度，也无明确追责机制，丢了文物只以“搬迁”搪塞，连最基本的报警查处细节、文物追回进展都语焉不详，贵博回应仅称“有备案可查”，却迟迟不公布具体情况。如今博物馆搬迁，既无细…

01-13

贵州省博物馆老馆29件套文物丢失被盗，文旅部门：正核实汇总将依规通报

中国被盗（丢失）文物信息发布平台公开信息显示，2025年，全国共发布52件套被盗或丢失文物信息，其中贵州省博物馆（老馆）有29件套，包括丢失的28件套、被盗的1件，最早的丢失于40年前。此外，贵州省博物馆丢…

01-13

八人徒步团野外探险，两女子体力不支遭弃，团队协作引深思

广东惠州，8名驴友组团去野外徒步，没想到，走到一半时两名女子体力不支，可其他六人不但没有帮忙，反而将两人弃在荒山上，救援赶到时，两人已经情况已经有些危险了眼看天就要黑了，山里气温下降，两人又冷又饿，其中一人因…

01-13

抱歉，我并未了解到相关信息，因此无法针对问题本身做出回答。

01-13

百度AI棋局：文库“转身”二次元，搜索“破局”新战场

01-13

华为2026智能光伏十大趋势发布：全场景构网，AI赋能光风储主力电源之路

01-13

科创板指数早盘回调，科创50ETF易方达(588080)规模领先或藏布局良机

01-13

中证红利质量ETF(159209)获资金青睐，低费率+双通道助力投资新选择

01-13

美防长透露：马斯克旗下AI聊天机器人或与五角大楼系统展开接入合作

01-13

评标专家因送餐延误低血糖中断工作青海省数据局调整其出专家库引思考

引发的争议与思考保障与支持的缺失：在强调专家自身责任的同时，评标组织方（包括交易中心、招标人）是否应提供更基础的保障,例如，确保餐食及时供应、安排合理的休息间隔、提供基本的急救药品或医疗支持等，将风险完全…

01-13

马年贺岁纪念钞币今晚开约！12家银行参与，速查网点额度别错过

贺岁纪念钞每人可预约兑换20张贺岁纪念币每人可预约兑换20枚目前，部分网点预约额度已经公布。本次共有12家银行参与预约兑换。中国银行的网点在“预约发行信息”一栏查询。）今晚，小钱和大家一起预约马年贺岁…

01-13

DeepSeek新论文聚焦条件记忆模块，或成V4技术核心引行业期待

2026年1月12日晚，DeepSeek与北京大学合作发布了一篇新论文，标题为《基于条件查找的条件记忆：大型语言模型稀疏性的新维度》。尽管条件记忆模块的直观效果主要体现在知识检索上，但DeepSeek团队还…

01-13

全国大部晴暖干燥“三九”反常升温昼夜温差大强冷空气将至需防范

1月中旬，全国大部持续晴朗干燥天气，冷空气虽频繁但强度偏弱，长江沿线升温尤为显著，多地最高气温冲击20℃，呈现出“三九暖如春”的反常气候图景，同时昼夜温差悬殊、区域冷暖不均的特点也十分突出。由于夜间缺乏云层保…

01-13

复旦博士威海逐雪：暴雪中奔跑捕捉冬日梦幻画卷

在降雪前夕，这位博士生在社交媒体上分享了自己的激动心情，称自己几晚都因期待而无法入眠。博士生在雪中欢快地奔跑，拍摄了许多美丽的照片，分享给朋友和家人，表达自己对这场雪的热爱。此次追雪经历也引发了网友们的热…

01-13

点击查看更多 +

全站最新

Meta现实实验室迎裁员潮扎克伯格推动战略调整聚焦AI可穿戴设备

苹果谷歌“牵手”AI领域，马斯克发声担忧行业权力集中

马斯克预言三年机器人外科医生超人类国内手术机器人赛道发展迅猛

大专学历的李骞：从青龙管业基层起步，如今履新董事长兼法定代表人

美防长透露：马斯克旗下AI聊天机器人或与五角大楼系统展开接入合作

马斯克再放豪言：SpaceX拟每年造1万艘星舰，航天业或迎量产新纪元

热门内容

本栏最新

美防长透露：马斯克旗下AI聊天机器人或与五角大楼系统展开接入合作

评标专家因送餐延误低血糖中断工作青海省数据局调整其出专家库引思考

马年贺岁纪念钞币今晚开约！12家银行参与，速查网点额度别错过

青海通报：4名评标专家因送餐延误身体不适，拒评标后被调整出专家库

青海4名评标专家因送餐延误身体不适，拒评标后被调整出专家库

短视频成瘾引发“脑雾”危机？重塑大脑、摆脱情绪陷阱的救赎之路

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.