DeepSeek论文上新！下一代大模型实现“记忆分离”，V4不远了？

【资料图】

继去年底发布一篇新论文后，1月12日晚，DeepSeek又上新了一篇论文，这次聚焦的是大模型的条件记忆模块，在结论中DeepSeek 认为，这将成为下一代稀疏大模型中不可或缺的核心建模原语。

此前有爆料称DeepSeek下一代大模型V4将在春节前后发布，结合这几次研究，业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的，名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（《基于条件查找的条件记忆：大型语言模型稀疏性的新维度》），作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是，大模型包含两种性质完全不同的任务，一种是需要深度动态计算的组合推理，另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制，只能通过计算低效地模拟检索过程。例如模型查找不变的知识时，得浪费算力重新推导一遍，既费时间又占资源。

为解决这一问题，DeepSeek团队引入了条件记忆作为补充的稀疏性维度，并通过Engram这一条件记忆模块实现，优化神经计算（MoE）与静态记忆（Engram）之间的权衡关系。

团队还发现了U型缩放定律，表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是，尽管记忆模块直观上有助于知识检索，但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说，现在的MoE 模型处理推理和记固定知识用的是一套方法，效率较低且浪费算力，这篇论文本质是给大模型做了 “分工优化”：让专门的模块干专门的事，例如有“记忆本”管固定知识，而推理模块管复杂思考，再按最佳比例分配资源，最终让模型又快又聪明。

DeepSeek在论文最后表明，条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测，此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称，DeepSeek将于2月发布新一代旗舰模型DeepSeek V4，且内部初步测试表明，V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后，DeepSeek的下一代旗舰模型一直未出，去年底DeepSeek发布了小更新V3.2版本，并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型，V4的推出或将成为业界关注的焦点。