AI大模型

DeepSeek-V4-Pro永久降价背后的10万亿美元棋局

2026年5月22日，DeepSeek将V4 Pro旗舰模型API永久降价75%，输出价格降至6元/百万Token。其战略目标不是卖模型，而是以极低价格快速构建开发者生态、成为AI产业链的定价基准。降价直接冲击美系大厂的高毛利叙事，利好国产硬件厂商和中小开发者。

晨涧云

2026-05-25 — 阅读时间 11 分钟

2026年5月22日，DeepSeek官方发布了一条公告，内容很短，但杀伤力不小。

V4 Pro模型API原定5月31日结束的2.5折限时优惠，正式转为永久定价。原价直降75%，不是延期促销，是长期锁定。

降完之后是什么水平？缓存命中仅0.025元/百万Token，输出仅6元/百万Token。同等旗舰段位里，比Claude Opus 4.7便宜19倍，比GPT-5.5便宜12倍。

一张价目表，重写了整个行业的参照系。

一、先读懂这张价格表

很多人看到"降价75%"四个字就停在了情绪层面。但真正值得看的，是价格表背后的结构。

DeepSeek V4 Pro 降价前后对比：

计费项目	原价（元/百万Token）	现价（元/百万Token）	降幅
输入·缓存命中	0.1	0.025	75%
输入·缓存未命中	12	3	75%
输出	24	6	75%

三项全线降75%，比例整齐，说明这不是选择性让利，是系统性重定价。

值得单独说一下缓存命中和缓存未命中的区别。两者之间有50倍的价差（0.025元 vs 3元），这个差距在实际使用中非常关键。

原理很简单：如果你的提示词里有一大段不变的内容——比如固定的系统提示、代码仓库快照、长上下文前缀——只要把这部分放在提示词前面，让系统识别并缓存，后续每次调用就能以0.025元的价格命中。真正变化的用户输入只是一小部分，整体成本会被大幅压低。多轮对话、长链条任务、整库代码分析，这三类场景的收益最为明显。

再来看两款模型怎么选：

V4 Flash：总参2840亿，每次推理激活130亿，适合日常对话、批量任务、高频工具调用——速度快，够用，成本低
V4 Pro：总参1.6万亿，每次推理激活490亿，适合Agentic Coding、复杂推理、长链条数学——需要更强智能，就上这个

这次降价的时间节奏也值得关注：4月24日开源上线，4月26日全线缓存命中价格首降，5月22日宣布永久降价，5月31日正式生效，7月24日老版本模型退场。不到三个月，完成了一套完整的市场卡位动作。

放到国际对比来看，V4 Pro输出价格折合约$0.84/百万Token。OpenAI高端模型区间是$15-30，Google Gemini高端档是$12-18，差距已经不是"便宜一点"，而是一个数量级的跨越。

二、凭什么敢这么低？工程能力才是底气

有人会说：这是在烧钱买流量。但如果仔细看DeepSeek的技术路径，会发现他们的低价不是补贴出来的，是工程能力硬把成本打下来的。

支柱一：MoE稀疏架构

传统大模型（稠密模型）每次推理要激活全部参数。V4 Pro总参数1.6万亿，但每次推理只激活490亿，大约是总量的1/32。V4 Flash更极端：2840亿参数只激活130亿。

这意味着什么？同等智能水平下，推理所需的计算量大幅压缩。算力消耗下来了，电费下来了，单次推理成本自然就低了。

支柱二：注意力机制创新

这一块相对技术，但结论很直接。

DeepSeek V4采用MLA（多层潜在注意力）+ DSA（动态稀疏注意力）的组合。这套机制在处理超长上下文时，有效降低了注意力计算的复杂度，让百万级Token的上下文不会把显存撑爆。

更关键的是KV Cache（键值缓存）的处理方式。这个数字很能说明问题：

模型	KV Cache 占用HBM
DeepSeek V4	5.48 GB
GLM5	60 GB
Qwen3-235B	89 GB

KV Cache从"显存黑洞"变成了可压缩、可转存的工程问题。显存占用低，意味着推理可以更多依赖SSD、NAND闪存、LPDDR等成本低得多的存储介质，对昂贵HBM和英伟达GPU的依赖显著降低。这才是低价的技术底气所在。

支柱三：开源 + 国产算力适配

DeepSeek以MIT许可协议全量开源至Hugging Face。路透社的报道指出，V4是按华为芯片做的适配，华为参与了部分训练流程。国产算力的介入，让单Token推理成本走上了一条与英伟达生态完全不同的曲线。

三个支柱叠加，缺一不可。这不是哪一项单独的技术突破，而是一套系统工程的整体成果。

三、降价的真实目的：不是卖模型，是成为标准

亚马逊AWS技术负责人吉里什·帕蒂尔提出过一个分析框架，把DeepSeek的战略称为"10万亿美元大战略"。低价是手段，成为AI产业链的定价基准才是目标。

这个逻辑链条值得完整梳理一遍：

低价API → 开发者大量涌入 → 推理负载爆炸式增长 → 数据中心、存储、电力等基础设施需求暴增 → DeepSeek从模型公司升级为AI基础设施的标准制定者

可以类比Linux。Linux从不靠操作系统授权费赚钱，但它撬动了整个开源软件生态，成为服务器操作系统的事实标准，围绕它形成的产业规模远超任何一家收费操作系统厂商。DeepSeek的开源策略、低价API、技术论文无保留分享，都在服务同一个目标：成为标准。

还有一个反直觉的增长飞轮需要理解。价格从几美元降到几毛钱人民币，那些过去嫌贵、场景跑不起来的应用开始大量调用。使用量的增速，往往远超单次推理成本的下降速度，总推理负载反而大幅增加。降本触发需求膨胀，这才是DeepSeek的真实算盘。

对竞争对手来说，最难受的不是某次Benchmark被超过，而是价格锚点被打穿了。一旦开发者用DeepSeek的价格视角看全世界，OpenAI、Anthropic、Google的高毛利叙事就很难自洽。V4预览版一出，国内竞品智谱和MiniMax的股价当天就各跌了9%，这个市场反应已经说明问题。

需要补充的是：DeepSeek仍在盈利。梁文锋对投资人承诺过"给DeepSeek健康的商业模式"。低价不等于亏损，而是用极低利润换生态主导权。这和"烧钱补贴"是完全不同的逻辑。

四、谁最慌，谁最赚？

这次降价，受影响的方向完全不同。

最慌的：美系大厂

表面上看，OpenAI、Anthropic、Google不会因为DeepSeek降价而立刻崩盘。但价格锚点一旦被打穿，销售周期里的每一场对话都会变得更难。企业客户掏出计算器，高毛利的故事就不那么好讲了。

各有压力的：国内竞品

智谱已上市，大规模降价直接损害股东利益，且主要走政企本地部署路线，复制DeepSeek的极致价格策略代价很高
MiniMax靠AI原生产品变现，需要利润空间，学不了这套打法
Kimi与DeepSeek路径最近，但Kimi更注重C端体验和用户打开次数，商业逻辑本质不同

最大隐性受益者：国产硬件

KV Cache压到5.48GB HBM，对英伟达GPU的依赖降低，华为芯片、国产GPU、NAND存储、LPDDR内存厂商获得了真实承接AI负载的场景入口。这是DeepSeek降价在产业链上游传导出的最重要信号。

偷偷吃满红利的：腾讯

即便不考虑入股传闻，腾讯有超强的产品生态和分发渠道，能把便宜好用的模型底座带来的红利吃得很厚。微信生态、腾讯云、企业微信，每一个都是规模化分发的入口。

最直接受益的：中小开发者和AI创业团队

这群人的变化最实际。以前是"先别上线，调用费顶不住"，现在是"先跑起来，数据回来再优化"。价格战改变的不是新闻头条，而是创业者每天的实际决策。

长线受益：能源和基础设施

降本触发需求膨胀，AI数据中心的电力需求会随之爆炸。DeepSeek的融资方名单本身就是一张产业地图：国家AI基金（政策背书）+ 腾讯（应用分发）+ 宁德时代（能源底座）。AI基础设施的竞争，早就是能源竞争了。

五、开发者实操：怎么用最低成本接入

说完战略和行业，回到最实际的问题：作为开发者，怎么上手？

迁移成本极低

如果你之前用过OpenAI的API，切换到DeepSeek几乎没有额外成本。base URL不变，老代码只需改一行model字段，就能切换到V4 Flash或V4 Pro。

缓存优化是核心

实际成本能压多低，很大程度取决于你有没有做缓存优化。

原则很简单：把不变的内容放前面，把每次变化的用户输入放后面。

系统提示词、代码仓库快照、长上下文前缀 → 放提示词开头，命中缓存
用户的本次输入 → 放后面，不影响缓存命中率

命中缓存 vs 未命中：0.025元 vs 3元，差120倍。优化得当，实际成本可以压得极低。

适用场景清单

场景类型	推荐模型	优化重点
AI写作、内容生成	V4 Flash	系统提示词固定化
代码生成、Agentic Coding	V4 Pro	代码仓库快照缓存
知识库问答	V4 Flash / Pro	知识库前缀缓存
智能客服	V4 Flash	多轮对话上下文缓存
复杂推理、长链条数学	V4 Pro	减少无效Token
自动化工作流	按复杂度选	批量任务合并调用

性能到底怎么样？

DeepSeek官方声称V4 Pro是公司内部员工日常Agentic Coding的主力模型，这句话不是营销语言，而是一个使用规模的背书。Artificial Analysis的测评数据显示，同等AI智能指数任务成本仅268美元，登顶全球性价比榜首。Agentic Coding测评达到当前开源模型最佳水平，非思考模式下性能接近Claude Sonnet 4.7。