DeepSeek-V4-Pro永久降价背后的10万亿美元棋局

2026年5月22日,DeepSeek将V4 Pro旗舰模型API永久降价75%,输出价格降至6元/百万Token。其战略目标不是卖模型,而是以极低价格快速构建开发者生态、成为AI产业链的定价基准。降价直接冲击美系大厂的高毛利叙事,利好国产硬件厂商和中小开发者。

DeepSeek-V4-Pro降价

2026年5月22日,DeepSeek官方发布了一条公告,内容很短,但杀伤力不小。

V4 Pro模型API原定5月31日结束的2.5折限时优惠,正式转为永久定价。原价直降75%,不是延期促销,是长期锁定。

降完之后是什么水平?缓存命中仅0.025元/百万Token,输出仅6元/百万Token。同等旗舰段位里,比Claude Opus 4.7便宜19倍,比GPT-5.5便宜12倍。

一张价目表,重写了整个行业的参照系。


一、先读懂这张价格表

很多人看到"降价75%"四个字就停在了情绪层面。但真正值得看的,是价格表背后的结构。

DeepSeek V4 Pro 降价前后对比:

计费项目原价(元/百万Token)现价(元/百万Token)降幅
输入·缓存命中0.10.02575%
输入·缓存未命中12375%
输出24675%

三项全线降75%,比例整齐,说明这不是选择性让利,是系统性重定价。

值得单独说一下缓存命中和缓存未命中的区别。两者之间有50倍的价差(0.025元 vs 3元),这个差距在实际使用中非常关键。

原理很简单:如果你的提示词里有一大段不变的内容——比如固定的系统提示、代码仓库快照、长上下文前缀——只要把这部分放在提示词前面,让系统识别并缓存,后续每次调用就能以0.025元的价格命中。真正变化的用户输入只是一小部分,整体成本会被大幅压低。多轮对话、长链条任务、整库代码分析,这三类场景的收益最为明显。

再来看两款模型怎么选:

  • V4 Flash:总参2840亿,每次推理激活130亿,适合日常对话、批量任务、高频工具调用——速度快,够用,成本低
  • V4 Pro:总参1.6万亿,每次推理激活490亿,适合Agentic Coding、复杂推理、长链条数学——需要更强智能,就上这个

这次降价的时间节奏也值得关注:4月24日开源上线,4月26日全线缓存命中价格首降,5月22日宣布永久降价,5月31日正式生效,7月24日老版本模型退场。不到三个月,完成了一套完整的市场卡位动作。

放到国际对比来看,V4 Pro输出价格折合约$0.84/百万Token。OpenAI高端模型区间是$15-30,Google Gemini高端档是$12-18,差距已经不是"便宜一点",而是一个数量级的跨越。


二、凭什么敢这么低?工程能力才是底气

有人会说:这是在烧钱买流量。但如果仔细看DeepSeek的技术路径,会发现他们的低价不是补贴出来的,是工程能力硬把成本打下来的。

支柱一:MoE稀疏架构

传统大模型(稠密模型)每次推理要激活全部参数。V4 Pro总参数1.6万亿,但每次推理只激活490亿,大约是总量的1/32。V4 Flash更极端:2840亿参数只激活130亿。

这意味着什么?同等智能水平下,推理所需的计算量大幅压缩。算力消耗下来了,电费下来了,单次推理成本自然就低了。

支柱二:注意力机制创新

这一块相对技术,但结论很直接。

DeepSeek V4采用MLA(多层潜在注意力)+ DSA(动态稀疏注意力)的组合。这套机制在处理超长上下文时,有效降低了注意力计算的复杂度,让百万级Token的上下文不会把显存撑爆。

更关键的是KV Cache(键值缓存)的处理方式。这个数字很能说明问题:

模型KV Cache 占用HBM
DeepSeek V45.48 GB
GLM560 GB
Qwen3-235B89 GB

KV Cache从"显存黑洞"变成了可压缩、可转存的工程问题。显存占用低,意味着推理可以更多依赖SSD、NAND闪存、LPDDR等成本低得多的存储介质,对昂贵HBM和英伟达GPU的依赖显著降低。这才是低价的技术底气所在。

支柱三:开源 + 国产算力适配

DeepSeek以MIT许可协议全量开源至Hugging Face。路透社的报道指出,V4是按华为芯片做的适配,华为参与了部分训练流程。国产算力的介入,让单Token推理成本走上了一条与英伟达生态完全不同的曲线。

三个支柱叠加,缺一不可。这不是哪一项单独的技术突破,而是一套系统工程的整体成果。


三、降价的真实目的:不是卖模型,是成为标准

亚马逊AWS技术负责人吉里什·帕蒂尔提出过一个分析框架,把DeepSeek的战略称为"10万亿美元大战略"。低价是手段,成为AI产业链的定价基准才是目标。

这个逻辑链条值得完整梳理一遍:

低价API → 开发者大量涌入 → 推理负载爆炸式增长 → 数据中心、存储、电力等基础设施需求暴增 → DeepSeek从模型公司升级为AI基础设施的标准制定者

可以类比Linux。Linux从不靠操作系统授权费赚钱,但它撬动了整个开源软件生态,成为服务器操作系统的事实标准,围绕它形成的产业规模远超任何一家收费操作系统厂商。DeepSeek的开源策略、低价API、技术论文无保留分享,都在服务同一个目标:成为标准。

还有一个反直觉的增长飞轮需要理解。价格从几美元降到几毛钱人民币,那些过去嫌贵、场景跑不起来的应用开始大量调用。使用量的增速,往往远超单次推理成本的下降速度,总推理负载反而大幅增加。降本触发需求膨胀,这才是DeepSeek的真实算盘。

对竞争对手来说,最难受的不是某次Benchmark被超过,而是价格锚点被打穿了。一旦开发者用DeepSeek的价格视角看全世界,OpenAI、Anthropic、Google的高毛利叙事就很难自洽。V4预览版一出,国内竞品智谱和MiniMax的股价当天就各跌了9%,这个市场反应已经说明问题。

需要补充的是:DeepSeek仍在盈利。梁文锋对投资人承诺过"给DeepSeek健康的商业模式"。低价不等于亏损,而是用极低利润换生态主导权。这和"烧钱补贴"是完全不同的逻辑。


四、谁最慌,谁最赚?

这次降价,受影响的方向完全不同。

最慌的:美系大厂

表面上看,OpenAI、Anthropic、Google不会因为DeepSeek降价而立刻崩盘。但价格锚点一旦被打穿,销售周期里的每一场对话都会变得更难。企业客户掏出计算器,高毛利的故事就不那么好讲了。

各有压力的:国内竞品

  • 智谱已上市,大规模降价直接损害股东利益,且主要走政企本地部署路线,复制DeepSeek的极致价格策略代价很高
  • MiniMax靠AI原生产品变现,需要利润空间,学不了这套打法
  • Kimi与DeepSeek路径最近,但Kimi更注重C端体验和用户打开次数,商业逻辑本质不同

最大隐性受益者:国产硬件

KV Cache压到5.48GB HBM,对英伟达GPU的依赖降低,华为芯片、国产GPU、NAND存储、LPDDR内存厂商获得了真实承接AI负载的场景入口。这是DeepSeek降价在产业链上游传导出的最重要信号。

偷偷吃满红利的:腾讯

即便不考虑入股传闻,腾讯有超强的产品生态和分发渠道,能把便宜好用的模型底座带来的红利吃得很厚。微信生态、腾讯云、企业微信,每一个都是规模化分发的入口。

最直接受益的:中小开发者和AI创业团队

这群人的变化最实际。以前是"先别上线,调用费顶不住",现在是"先跑起来,数据回来再优化"。价格战改变的不是新闻头条,而是创业者每天的实际决策。

长线受益:能源和基础设施

降本触发需求膨胀,AI数据中心的电力需求会随之爆炸。DeepSeek的融资方名单本身就是一张产业地图:国家AI基金(政策背书)+ 腾讯(应用分发)+ 宁德时代(能源底座)。AI基础设施的竞争,早就是能源竞争了。


五、开发者实操:怎么用最低成本接入

说完战略和行业,回到最实际的问题:作为开发者,怎么上手?

迁移成本极低

如果你之前用过OpenAI的API,切换到DeepSeek几乎没有额外成本。base URL不变,老代码只需改一行model字段,就能切换到V4 Flash或V4 Pro。

缓存优化是核心

实际成本能压多低,很大程度取决于你有没有做缓存优化。

原则很简单:把不变的内容放前面,把每次变化的用户输入放后面。

  • 系统提示词、代码仓库快照、长上下文前缀 → 放提示词开头,命中缓存
  • 用户的本次输入 → 放后面,不影响缓存命中率

命中缓存 vs 未命中:0.025元 vs 3元,差120倍。优化得当,实际成本可以压得极低。

适用场景清单

场景类型推荐模型优化重点
AI写作、内容生成V4 Flash系统提示词固定化
代码生成、Agentic CodingV4 Pro代码仓库快照缓存
知识库问答V4 Flash / Pro知识库前缀缓存
智能客服V4 Flash多轮对话上下文缓存
复杂推理、长链条数学V4 Pro减少无效Token
自动化工作流按复杂度选批量任务合并调用

性能到底怎么样?

DeepSeek官方声称V4 Pro是公司内部员工日常Agentic Coding的主力模型,这句话不是营销语言,而是一个使用规模的背书。Artificial Analysis的测评数据显示,同等AI智能指数任务成本仅268美元,登顶全球性价比榜首。Agentic Coding测评达到当前开源模型最佳水平,非思考模式下性能接近Claude Sonnet 4.7。


写在最后

这次降价,表面是一张价目表更新,实质是整个AI行业定价逻辑的重写。

DeepSeek用工程能力把成本真正打下来,用开源策略放大影响范围,用极低利润换生态主导权。这套打法跟"烧钱换市场"不是一回事,底层逻辑更接近Linux——不靠卖模型赚钱,靠成为标准赚未来。

价格战从来不只是价格战。当一个旗舰模型的输出成本降到6元/百万Token,很多过去被成本挡在门外的应用场景会重新被激活。这些场景一旦跑通,需要的算力、存储、电力、数据,都会形成新的产业规模。

对开发者来说,现在是个好时机。工具更便宜了,门槛更低了,先跑起来再说。

阅读更多