DeepSeek发布的三篇论文提出了知识与计算分离的架构思路,旨在提升AI模型的推理效率

DeepSeek发布的三篇论文提出了知识与计算分离的架构思路,旨在提升AI模型的推理效率

在人工智能领域,模型架构的创新始终是推动技术突破的核心动力。2026年初,DeepSeek团队连续发布三篇重磅论文,其中《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》提出的“Engram条件记忆机制”尤为引人注目。该机制通过将静态知识存储与动态计算解耦,构建了“查算分离”的双稀疏轴架构,为解决大模型推理效率与算力消耗的矛盾提供了全新范式。

当前主流大模型(如Dense Transformer与MoE架构)普遍存在一个结构性缺陷:用同一套高成本神经计算同时处理“静态知识检索”与“动态组合推理”两类本质不同的任务。以“法国首都是巴黎”这一简单事实为例,传统模型需通过6层注意力网络逐层拼凑“法国→首都→巴黎”的逻辑链,用矩阵乘法(O(d²)复杂度)模拟查表操作(O(1)复杂度),算力浪费达10万倍。这种设计在长文本处理中尤为致命——局部依赖(如固定搭配)的重复计算会占用注意力容量,导致32k上下文场景下信息召回率不足85%。此外,当模型参数规模突破千亿级时,静态知识(如常识、事实)的冗余计算会消耗大量显存带宽,成为推理速度的主要瓶颈。

Engram的核心创新在于引入条件记忆模块,与MoE形成互补稀疏轴。其技术实现包含三个关键维度:
在静态知识存储方面,通过多头哈希检索将N-gram序列映射至静态嵌入表,实现O(1)复杂度的知识查找。例如,将“法国-首都”压缩为哈希索引,直接检索预存向量,避免重复计算。该模块支持动态扩展,实验中嵌入表规模从1亿条扩展至10亿条时,检索延迟仅增加2.3%。
动态计算优化方面,MoE专家网络专注处理需要深层推理的任务(如数学证明),其计算资源不再被静态知识占用。通过门控机制动态分配路由,确保80%以上的专家调用集中在高价值任务上。实验显示,当20%-25%的稀疏参数分配给Engram时,模型在Multi-Query NIAH任务中的准确率从84.2%提升至97.0%。
系统级解耦方面,千亿参数的Engram嵌入表可卸载至CPU内存,通过PCIe通道异步预取数据,使H800 GPU推理吞吐量降幅不足3%。这种设计使模型在保持671B参数规模的同时,训练计算量较纯MoE架构减少18%,且支持跨节点分布式部署。

在32k上下文长度的RULER基准测试中,Engram-27B模型在Variable Tracking任务中表现优异,验证了其处理长程依赖的能力。更关键的是,该架构遵循幂律缩放定律:增加记忆槽数量可持续降低验证损失,且不增加计算开销。例如,当记忆容量从1亿条扩展至10亿条时,模型在常识推理任务中的准确率提升12.7%,而计算量仅增加1.2%。这与传统模型“参数增加但性能边际递减”形成鲜明对比,为模型规模化扩展提供了可预测的路径。

Engram的“查算分离”设计对AI产业具有深远影响。在硬件成本优化方面,通过CPU-GPU协同计算,降低对高带宽内存(HBM)的依赖,使单卡推理成本下降40%以上。以医疗影像分析场景为例,Engram可将解剖结构知识库的检索效率提升15倍,使实时诊断成为可能。在能效比提升方面,在金融风控场景中,Engram可将交易规则库的更新周期从季度缩短至周级,同时保持99.99%的规则匹配准确率。在模型更新机制方面,静态知识库支持独立更新,无需重新训练整个模型,显著缩短行业知识迭代周期。例如,法律领域可每月更新法规条款库,而模型推理能力保持不变。

DeepSeek团队指出,Engram机制的本质是模拟人脑的“系统1/系统2”分工:Engram对应快速、自动的记忆提取(系统1),MoE推理对应慢速、费力的逻辑思考(系统2)。这种设计不仅提升了效率,更使模型架构更接近神经符号系统——Engram作为符号知识库提供确定性,MoE作为神经推理机处理不确定性。随着记忆容量的持续扩展,未来大模型有望突破“暴力计算”的路径依赖,向更高效、更可解释的认知架构演进。例如,当记忆容量达到千亿级时,模型可能具备类似人类的基础常识能力,从而在开放式问答、创意生成等任务中实现质的飞跃。

在参数竞赛进入瓶颈期的当下,Engram机制的出现标志着AI技术范式的重要转折。通过解耦存储与计算,DeepSeek为下一代稀疏模型提供了关键建模基元,或许将重新定义大模型的效率边界与能力天花板。随着该架构在开源社区的推广,预计未来两年内将有超过60%的产业级模型采用“查算分离”设计,推动AI技术从实验室走向真实世界的关键应用场景。

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)

猜你喜欢

发表回复

登录后才能评论