AI大模型

DeepSeek V4：用“记忆架构”改写大模型算力游戏？

本文梳理了DeepSeek V4可能采用的核心技术路线：通过 Ingram 条件记忆模块将大部分静态知识迁移到 CPU 内存，并在 R1 训练范式的基础上压缩训练与部署成本。“算力+记忆双轴”架构有望显著降低大模型门槛，对 OpenAI 等闭源路线及 GPU 主导的算力商业模式形成压力。

晨涧云

2026-02-02 — 阅读时间 13 分钟

关于 DeepSeek V4 的传闻，这段时间越来越密集。

媒体和研究者普遍认为：V4 很可能在农历新年前后发布，延续当年 R1 在春节前引爆全球市场的节奏。

更关键的是，在模型尚未发布之前，DeepSeek 已经先抛出了几篇分量很重的论文，把 V4 可能采用的核心技术路线摊给了整个社区。

这几篇论文指向同一个方向：

用更聪明的“记忆+算力架构”，让大模型在更便宜的硬件上跑出接近甚至更好的能力。

本文还原一个相对客观的图景：

DeepSeek V4 想解决什么问题？用了哪些关键技术？这些技术如果真的落地，会给算力成本和行业格局带来什么变化？

一、V4 还没发布，技术路线已经写在论文里了

过去一年，DeepSeek 按照一个很固定的节奏在行动：

先发论文，把思路、架构和踩坑过程写出来；
再发模型，让社区去验证这些设计是不是靠谱。

围绕 V4，目前可以看到三条非常清晰的技术线索：

Ingram / Ngram 条件记忆模块

通过“查表式记忆”给模型装上真正可控的外部记忆；
把大量静态知识从 GPU 显存挪到 CPU 内存甚至磁盘上。

MHC（Meta-Flow Constrained Residual Connections）残差连接

对用了十年的 ResNet 残差结构下手，改进层与层之间的连接方式；
在大模型上实现更稳定、更快收敛的训练。

R1 论文的大幅扩展

从 22 页扩展到 80 多页；
把完整训练成本、失败实验和 reward hacking 问题全部写出来。

这三块叠在一起，大致勾勒出 V4 的路线：不是再堆一个更大的黑箱，而是在“记忆、残差、训练范式”三个老问题上，做架构级的手术。

二、Ingram 条件记忆：让模型学会“查字典”，而不是一遍遍背书

Ingram 这个词来自神经科学，用来指大脑中“记忆痕迹”的物理载体。DeepSeek 把这个名字用在论文上，很明显是在说：他们想给大模型装一套自己的“记忆系统”。

1. 传统大模型在记忆上的浪费

论文举了一个例子：模型看到 “Diana Princess of Wales” 时内部是怎么处理的。简化后的过程大致是：

第一二层：知道 Wales 是英国的一个地区；
第三层：想到是欧洲的一个国家；
第四层：意识到 Princess 是头衔，代表女性王室成员；
第五层：推到“威尔士王妃”；
第六层：才真正收敛到“戴安娜王妃”这个具体的人物。

问题在于：戴安娜王妃是谁，这是一个死知识。

每次遇到都从头推一遍，本质上是在浪费网络层数和算力。

就像考试时，明明可以查字典，你却每次都要从“英国是个国家”开始往下推理一遍，而且还要动用一大堆 expensive 的 GPU 计算。

2. Ingram 的核心思路：查表 + 条件过滤

Ingram 做的事情可以概括为三步：

做一本“超级字典”

把大量静态知识、代码模板、常见公式等，预先编码到一个“记忆表”中；
这部分参数主要存放在 CPU 内存甚至磁盘，而不是占用宝贵的 GPU 显存。

通过哈希快速定位

模型看到某个 span（比如名字、术语、典型短语）时，会将其映射为哈希索引；
通过多头哈希等方式，在记忆表里找到对应的“页”，就像查字典翻页。

结合上下文做条件过滤

查到的记忆不直接生效，而是先和当前上下文对齐；
如果语境是“水果”，查到的 Apple 公司会被忽略；
如果语境是“手机”，那和 Apple 公司相关的记忆就会被采纳。

整个过程的关键不是“查没查到”，而是在什么时候用记忆，什么时候继续依赖网络自身的推理。

3. 记忆和思考的“U 型曲线”

DeepSeek 在论文中做了一个有意思的实验：在总参数量固定的前提下，如何在 MOE 专家和 Ingram 记忆之间分配参数比较合理。

结果非常直观：

全是 MOE（全思考、无记忆），效果不是最优；
全是 Ingram（全记忆、少思考），效果也明显变差；
当大约 75% 用于思考，25% 用于记忆 时，综合性能最好。

这条曲线被形容为“博尔赫斯式”的启示：

完美的记忆会杀死抽象，而只有抽象没有记忆，又会不断重复发明轮子。

4. 实际收益：不是只涨知识题

更有意思的是：Ingram 不仅提升了知识问答（MMLU 等）能力 3–4 个点，在代码与数学推理任务上，收益甚至更大。

原因很好理解：

当“背公式、背 API、背定义”的工作被字典接管后，网络真正的有效深度被释放出来，可以更多地用于推理和结构化思考。

论文的测量结果是：

带 Ingram 的模型，第五层的“思考深度”，相当于普通模型第十二层的水平——相当于白送了七层深度，但几乎没有增加额外计算。

三、MHC：10 年没被动过的残差连接，第一次被大规模重构

如果说 Ingram 是在解决“记忆太贵”的问题，那么 MHC 则是在反思：用十年的残差连接，真的已经是最优解了吗？

1. ResNet 残差的老问题

2015 年，ResNet 提出残差连接，把每一层输出变成：

输出 = F(x) + x

它的好处是：

让信号可以绕过中间层，直达更高层；
解决了“网络越深越训不动”的梯度消失问题。

Transformer、GPT 系列、几乎所有现代大模型都在用这种残差结构。

十年下来，大家几乎一致默认：这就是最优解。

2. HC 尝试学习残差权重，却塌房了

2024 年，字节的一篇论文（HC）第一次提出：既然残差的权重一直是 1:1，为什么不让模型自己学这个权重？

效果确实不错：

在某些任务上收敛速度提升 1.8 倍；
部分指标提升达 6 个点。

但问题也非常致命：训练极不稳定。

DeepSeek 复现时发现：

在 27B 级别模型上，HC 的信号放大系数可以飙到 3000；
训练到一半，损失突然爆炸，整条曲线直接“崩盘”。

本质原因是：

每一层都在用一个可学习矩阵放大/缩小信号，几十层、上百层连乘之后，微小的 >1 放大都会变成指数级爆炸。

3. MHC 的约束：用数学方式给“自由”加边界

DeepSeek 的 MHC 做的事情是：不是砍掉自由，而是给自由画边界。

他们采用了带约束的矩阵（双随机矩阵）做残差权重，满足：

所有元素 ≥ 0；
每一行加起来等于 1；
每一列加起来也等于 1。

这种矩阵的一个自然性质是：

它做的事情本质上是加权平均，结果不会超出输入的数值范围。

更重要的是：多个这样的矩阵相乘，结果仍然是同类型的矩阵。

这意味着：

不管网络有多深，信号不会被指数放大；
也不会像原始 HC 那样，在几十层后放大 3000 倍。

实测显示：

HC 的最大放大倍数约为 3000；
MHC 的最大放大倍数降到了 1.6，直接降低了三个数量级。

训练曲线也从“随时会炸”的锯齿变成了平滑可控的下降线。

在性能上，MHC 不仅优于原始残差结构，甚至略优于不稳定的 HC，代价只是约 6.7% 的训练时间增加。

论文最后写得很直接：

希望这项工作能够重新唤起社区对宏观架构设计的兴趣——不是只有 attention、FFN 和 MOE 可以优化，层与层之间的连接，同样还有金矿。

四、算力+记忆双轴：成本结构被彻底改写？

前面讲的是“怎么更聪明地用算力”，接下来是更现实的问题：DeepSeek V4 真的能让大模型变便宜吗？

1. 从“算力军备”到“算力+记忆双轴”

DeepSeek 在多篇内容中强调：

传统路线（包括 OpenAI、Google 在内）本质上靠的是 单轴扩展：堆参数 + 堆算力。

V4 想走的是 双轴架构：

一轴是计算（传统网络层、专家路由、MHC 等）；
另一轴是记忆（Ingram 条件记忆、外部知识表、CPU/存储挂载）。

有分析认为：在这样的架构下，模型能力不再完全绑定“总参数”和“GPU 数量”，而是取决于：

多少参数用于真正的推理；
多少知识被结构化地挪到外部记忆上。

2. 成本示例：8 张 A100 vs 一张消费级卡 + 大内存

整理稿里的一个典型对比是这样的：

传统千亿参数模型部署：
需要 8 张 A100；
硬件成本动辄 6–8 万美元起。
Ingram + 条件记忆方案下：
把大部分嵌入表、静态知识放到 CPU 内存；
只保留核心推理部分在 GPU；
用一张消费级显卡 + 4 条 64GB 内存条（总计约 1200 美元）就能跑起来。

在长上下文任务（比如 32K token 的文本理解）上，实测中准确率从 84% 提升到了 97%，而整体推理速度下降不足 3%。

换句话说：

不仅没有明显变慢，还更准了，而且成本可以降到原来的十分之一乃至二十分之一。

结合 R1 论文披露的训练成本——约 29.4 万美元（含奖励模型和自对齐成本）——社区里才会出现那句被广泛传播的话：

“一辆保时捷的钱，训出了一个撬动全球 AI 市场的模型。”

关于 V4，有传言称：通过 Ingram 模块等技术，训练成本有机会再压到同等性能下 30% 以内，甚至在部分任务上用 5% 的成本达到 95% 的性能。

这一点还需要实际发布后的数据验证，但方向已经非常明确：架构创新，而不是纯算力堆砌，是这代模型的关键词。

使用晨涧云AI算力平台解放AI算力需求。

五、对 OpenAI、NVIDIA 和行业格局的压力

在很多分析稿和评论中，可以看到一个共识：

DeepSeek V4 带来的威胁，对 OpenAI 来说未必首先是“能力被反超”，而是 商业模式被系统性挑战。

1. 算力和利润率的重写

如果中国团队能用 5% 的成本做到美国闭源龙头 95% 的效果，意味着：

大模型 API 的价格体系会被重写；
AI 行业的利润率预期会被整体下调；
资本市场对“高算力、高估值”的故事，会更加谨慎。

有观点甚至认为，这种“算力民主化”会让 GPU 需求阶段性降温，英伟达的增长逻辑将被重新评估。是否会如部分研报所说“算力军备雪崩式降温”，还需要时间验证，但这种担忧是真实存在的。

2. 闭源 vs 开源：路径差异被放大

OpenAI 的路径是：

超大闭源模型 + 昂贵算力投入；
靠 API 付费和企业服务摊销成本；
通过快速迭代和产品整合维持技术壁垒。

DeepSeek 则明显在推另一种叙事：

核心技术尽量写进论文，包括失败尝试；
模型本身尽可能以开源或类开源方式释放；
通过“白菜价 API + 开源权重”把门槛压到非常低。

当架构本身依赖的是 CPU 内存 + 普通 GPU 的组合，而不是大规模 H100/H200 集群时，谈判筹码就从芯片厂商和少数巨头手里，挪向了更多云厂商和中小团队。

六、我们应该如何看待即将到来的 DeepSeek V4？

最后，回到一个相对冷静的问题：

在模型尚未正式发布之前，我们可以对 V4 做怎样的期待，又应该保持怎样的谨慎？

相对稳妥的判断大概有三点：

技术方向已经非常清晰

Ingram 条件记忆、MHC 残差连接，以及对训练范式的优化，已经通过论文公开。
这些并不是“营销概念”，而是实打实的架构改造。

真正的改变在成本结构

把静态知识从 GPU 挪到 CPU / 存储，把推理和记忆解耦，是对算力游戏规则的正面挑战。
如果这些技术在 V4 中被系统集成，并通过开源或低价 API 释放出来，算力门槛会被大幅拉低。

传闻里的数字需要用时间来验证

“用 5% 成本实现 95% 性能”“部署成本下降 90%”“单卡跑出极高代码分数”等说法，都还停留在论文 + 内部测试 + 二手解读层面。
只有当 V4 正式发布，被更多第三方团队复现之后，我们才能真正判断它是否“再创奇迹”。

但无论如何，有一件事可以比较确定：

DeepSeek 正在把“怎样更聪明地使用算力”变成这场竞赛的主线，而不是继续简单地比谁的 GPU 更多、模型更大。

对于开发者、研究者以及关注 AI 产业走向的人来说，这本身就是一件值得认真观察的事。