DeepSeek V4 实测全解析:王者归来还是力不从心?

DeepSeek V4 在沉默半年后悄然发布,参数量翻 1.6 倍、上下文升至 1M。架构上通过 MoE 专家池扩容、稀疏注意力与高效训练把成本压到海外模型的 5%–20%。实测中,V4 在中文理解、长文本、Agent 编程和资料检索上跻身全球第一梯队,但多模态仍落后。V4 是当下性价比最高的国产旗舰模型。

DeepSeek V4

一、沉默半年后,小鲸鱼终于浮出水面

自从年初 R1 横空出世、震惊全球之后,DeepSeek 这条"小鲸鱼"几乎从公众视野里消失了。网页端将近半年没有像样的更新,社交媒体上的质疑声越来越多:"DeepSeek 是不是已经泯然众人矣?""被 Gemini 和 GPT 甩开了吧?""开源红利吃完,后劲不足了。"

然而水面之下的故事,远比表象热闹。

过去这一年,DeepSeek 团队几乎没在产品端发声,却在学术圈密集投稿。粗略统计下来,他们一共发表了近十篇重量级论文,其中一篇拿下了 ACL 最佳论文奖,还有一篇登上了 Nature。这种"闭关修炼"的姿态,在如今这个三天两头开发布会的 AI 行业里,显得格外另类。

直到某个再普通不过的周五,V4 悄悄上线了。

没有发布会,没有预热海报,甚至连官方公众号的推送都低调到容易被刷掉。但内行人一看参数就坐不住了——参数量直接翻到上一代的 1.6 倍,上下文一步到位拉到了 100 万 token,并且同时推出 ProFlash 两个版本,覆盖从重型推理到轻量任务的全场景。

问题随之而来:在 Gemini 3 Pro、ChatGPT 5.5 已经把多模态、Agent 能力卷到天上的当下,V4 是真的"王者归来",还是只是补了张迟到的答卷?

我把这三个模型拉到同一张桌子上对比,也仔细读了 V4 的技术论文。下面是我的完整观察。


二、V4 的核心突破:在"算力地狱"里杀出的效率之王

行业大背景:算力正在被 Agent 吃光

要理解 V4 的设计取舍,得先看清整个行业现在面临什么。

AMD CEO 苏姿丰在最近一次财报会上给出了一组让人头皮发麻的数据:

时间节点 全球 AI 算力规模 备注
2022 年 约 1 ZFLOP ChatGPT 发布前夕
2025 年 100+ ZFLOP 三年增长 100 倍
2030 年(预测) 10000+ ZFLOP 还要再翻 100 倍

更关键的是,需求曲线正在被 Agent 进一步抬高。传统聊天,用户问一句答一句,token 消耗有限。但到了 Agent 时代,模型要不停跑 React Loop、调用工具、读取上下文、自我反思——同样一个任务,token 消耗量是传统聊天的 5 到 50 倍

这种背景下,独立开发者的故事开始变得疯狂。Peter Levels 17 天就做出了一个年入百万美元的产品;OpenClaw(外号"龙虾")整个项目由一个人完成,几乎零手写代码。Agent 红利是真的,但烧钱速度也是真的。

谁能用更少的算力跑出同等质量,谁就能活下来。这正是 DeepSeek 一贯的底层基因。

量化交易出身的省钱哲学

V4 在架构上做了三件事,每一件都直指"效率"两个字。

第一,MoE 专家池扩容但激活更稀疏。 上一代 256 个专家,每次激活 8 个;V4 把专家池扩到了 384 个,但每次只激活 6 个。听起来很反直觉——专家更多了,激活反而更少?但这正是 MoE 的精妙之处:池子越大,每次匹配到的专家越精准,所以激活数可以降下来。结果就是模型容量更大,单次推理成本反而更低。

第二,全新的注意力机制让长文本计算量大幅下降。 这是 1M 上下文能落地的前提。传统注意力的复杂度是 O(n²),100 万 token 直接劝退。V4 用上了团队自研的稀疏注意力变体,论文里给出的数据是长文本场景下计算量下降到原方案的几分之一。

第三,新训练方法只需传统方案约一半的算力。 这点在论文里没有大肆渲染,但是非常硬核——同等效果下省一半算力,意味着要么同样预算训出更强模型,要么同样模型跑出一半的价格。

价格碾压

效率红利最终都体现在 API 报价上。

模型 输出价格(每百万 token) 对标海外模型
DeepSeek V4 Flash 约 2 元 同级海外模型几十元
DeepSeek V4 Pro 约 24 元 对标模型 100+ 元

性价比差距大约是 5 到 20 倍。而且这还是 NVIDIA 卡上的报价,等到华为昇腾的大规模部署铺开,价格还会继续下探。

对个人开发者来说,这种价格差几乎是决定性的。同样一个 Agent 项目,用 V4 跑一个月可能就几十块;换成海外模型,账单可能直接四位数。


三、实战三方对决:V4 vs Gemini 3 Pro vs ChatGPT 5.5

跑分数据再漂亮,也比不上真实场景上手。我准备了几组覆盖情商、智商、办公、编程的题目,三方同台。

1. 基础能力:情商和智商

情商题:下雨了,公司只剩一把伞,应该给董事长还是总经理?

  • Gemini 3 Pro:把伞给总经理,让总经理给董事长撑伞。完美,既照顾了等级,又给了下属表现机会。
  • DeepSeek V4:建议给董事长,理由偏直球,少了一点机灵劲。
  • ChatGPT 5.5:直接给出"三人共撑一把伞"的方案……物理学家看了想打人。

逻辑题:"我亲生父母上周结婚了,怎么没叫我?"

  • DeepSeek V4Gemini 都识别出了逻辑漏洞——你都还没出生呢。
  • ChatGPT 5.5 反而切到了情感模式,开始安慰用户"被忽视的感受"。情商太高,智商崩了。

中文语境下,V4 的理解能力稳稳在第一梯队。但纯情商和场景拿捏,Gemini 还是更老练一些。

2. 办公能力

任务一:写一篇 V4 使用教程。

  • ChatGPT 直接产出了 PDF,信息量大、排版完整。
  • DeepSeek 内容偏简单,结构稍显单薄。
  • Gemini 这次翻车了——出现了乱码。

任务二(亮点):给一位 B 站 UP 主做采访方案。

这道题真正拉开了差距。

模型 表现
DeepSeek V4 主动抓取了 UP 主的频道动态、近期视频文案、甚至全网身份资料
ChatGPT 5.5 只读了链接表层信息
Gemini 3 Pro 同样停留在链接表层

V4 的自主检索 + 多步思考能力,在这种"开放式信息任务"里展示得淋漓尽致。它不是在"读链接",而是真的在"做调研"。这是我整个测试里最惊艳的一个点。

3. 高级用法:编程

任务一:仿一个 B 站首页。

  • Gemini 几乎做到了 1:1 视觉还原,UI 细节最佳。
  • DeepSeek 因为没有自带的视觉设计模型加持,UI 略显粗糙,但功能逻辑完整。
  • ChatGPT 居中。

任务二:复刻一个"建房子解压"的小游戏,给定参考链接。

  • Gemini 能直接读取链接、识别玩法、还原核心机制。
  • DeepSeek 和 ChatGPT 都没有成功读取到链接内的游戏内容。

硬指标跑分:

项目 DeepSeek V4 得分 行业对标
Code Forces 3206 超过 Claude Opus 4.6 与 GPT 5.4
SWE-Verified 80.6 与目前最强模型齐平

编程能力上,V4 已经是真正的全球第一梯队。尤其是 Code Forces 这种高强度算法竞赛场景,超越 Claude Opus 这件事本身就足够说明问题。


四、被忽视的重大升级:1M 上下文与小模型策略

上下文从短板变长板

老实说,过去一年很多人放弃 DeepSeek,并不是因为它不够聪明,而是因为它"装不下"。上一代上下文窗口太小,长文档、复杂代码项目、多轮 Agent 任务都会被截断。

V4 一步到位拉到 100 万 token,单次输出上限达到 384K。这是什么概念?一次性输出一整本《黑暗森林》之后,还有余量。

对 Agent 时代来说,上下文长度几乎是决定性的:

  • 代码项目要把整个仓库塞进去
  • 工具调用要保留历史指令和返回结果
  • 格式化输出要预留足够空间
  • React Loop 要不停积累中间思考

短上下文的模型,根本玩不转这套体系。V4 这一升级,相当于把自己从"聊天工具"正式升级成了"Agent 引擎"。

Flash 版的战略意义

很多人没注意到 Flash 版的存在意义。

实际开发中,并不是所有任务都需要最强模型。摘要、翻译、格式整理、简单分类这类任务,用 Pro 就是杀鸡用牛刀。Flash 让开发者在保持基本智力水平的前提下,把成本压到极低。

一个典型的 Agent 工作流可能长这样:Flash 负责前置数据清洗 → Pro 负责核心推理 → Flash 再负责输出格式化。这种"大小搭配"能让整体成本再降一个数量级。

必须承认的短板

V4 仍然是纯文本模型。没有图像理解,没有语音输入输出,没有视频处理。

这是它和 GPT、Gemini 综合体验差距最明显的地方。论文里 DeepSeek 团队也坦承,多模态能力比主流落后 3 到 6 个月。在这个连 ChatGPT 都能直接看图说话的年代,纯文本确实是个不小的遗憾。


五、使用避坑指南:很多测评其实没真正激活 V4

刷到 V4 测评的人多,但真正把它用对的人,可能没几个。我看了一圈,至少有一半的"差评测评"都是因为配置错了。

几个关键配置点

第一,简单任务用 Flash,复杂任务再上 Pro。

不要无脑全调 Pro,账单会让你怀疑人生。合理的做法是先用 Flash 跑一遍,确认任务复杂度,再决定是否升级。

第二,Claude Code 用户要注意默认上下文只有 200K,需要手动配置。

Claude Code 是当前最流行的 Agent 编程工具之一,但它默认接 V4 的时候并不会自动开 1M。同时,Effort Level 一定要设为 Max,才能启用 V4 Pro 的最高档思考模式。

V4 的三档思考模式

V4 的思考模式和上一代不太一样,分成三档:

档位 适用场景
无思考 简单问答、格式化任务
High 日常推理、中等复杂任务
Max 复杂编程、长链 Agent、深度分析

很多测评博主用默认档位测复杂任务,然后得出"V4 不行"的结论。这就好比把跑车挂在一档跑赛道,怪车不快。

官方文档目前还在快速迭代,建议大家用之前先翻一遍最新文档。


六、结语:知行合一的小鲸鱼

读完 V4 的技术论文,我最大的感受不是"这模型有多强",而是这个团队的气质有多稳。

整篇论文风格质朴到有点反差。致谢只有一句话;坦白承认部分跑分因为 Kimi 和 GLM 的 API 太忙没拿到数据,处理方式是质朴的"高速率账号安排上";引用了 Kimi 团队验证过的优化器;同时也提到 Kimi K2 借鉴了 DeepSeek 早期的注意力架构。

这种行业内的相互引用、相互成就,在如今互相拉踩、营销满天飞的 AI 圈里,几乎像是一股清流。

DeepSeek 把精力全花在"造引擎"上,开源出来让开发者们去造车。这套打法跟 OpenAI 的封闭路线完全相反,但走出了自己的护城河。

总结评价

如果你期待 V4 复制 R1 式的"全网刷屏奇迹",那大概率会失望。这次没有那种戏剧性的爆点。

但如果你看的是长期价值,那么在以下四个维度上,V4 依然稳稳坐在全球第一梯队:

维度 V4 表现
中文理解 第一梯队,逻辑识别能力突出
长文本处理 1M 上下文 + 384K 输出,行业顶配
Agent 编程 Code Forces 3206,SWE-Verified 80.6
性价比 比海外同级模型便宜 5–20 倍

至于多模态那块的短板,留给 V5 吧。

论文末尾,DeepSeek 团队引用了一句古话:"父爱仁者,人必从而爱之;利仁者,人必从而利之。" 开源、长期主义、知行合一——这才是小鲸鱼真正的护城河。

不喧哗,自有声。

阅读更多