AI大模型

DeepSeek联合北大开源DSpark：高并发场景推理速度提升60%-85%

2026年6月27日，DeepSeek联合北大发布并开源DSpark推理加速框架，已用于DeepSeek-V4生产引擎，单用户生成速度提升60%-85%，高并发吞吐最高提升661%。

晨涧云

2026-06-29 — 阅读时间 11 分钟

DeepSeek再次出手：联合北大破解大模型推理难题

6月27日，DeepSeek联合北京大学正式发布DSpark推理加速框架。梁文峰本人担任通讯作者，框架已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版的生产推理引擎。论文、训练代码和模型检查点同步在GitHub的DeepSpec项目中开源。

Fireworks AI的CTO、PyTorch核心维护者Dimitro在看到论文后自发撰写了技术解读博客，这在AI圈并不常见——通常只有真正解决了痛点的工作才会引发这类自发响应。

这次发布的核心数据是：相比此前的生产基线MTP-1，单用户token生成速度提升60%-85%，高并发场景下吞吐量提升最高超过600%。数字很大，但要理解为什么这很难做到，得先看清楚大模型推理到底卡在哪里。

为什么AI对话这么慢？推理效率的真正瓶颈

大模型生成文本的方式叫自回归：每次只生成一个token，生成完了才能生成下一个。输出100个token，就要做100次完整的前向传播。这意味着延迟随输出长度线性增长，没有捷径。

很多人以为是GPU算力不够，实际上瓶颈在显存带宽。每生成一个token，系统都要把整套模型权重从显存搬到计算单元，而当前GPU的算力增长远超显存带宽的增长速度。结果是：大部分时间不是在算，而是在等数据搬运。一张高端GPU，约90%的推理时间花在数据移动上。

推测解码（Speculative Decoding）就是为了绕开这个限制而生的。基本思路是：用一个小的草稿模型快速生成一批候选token，再让大模型一次性批量验证。批量验证能充分利用GPU的并行计算能力，等于把多次"一个token一次传播"压缩成"多个token一次传播"。如果草稿质量够高、大模型接受率够好，整体速度就能显著提升。

问题在于，如何让草稿模型又快又准。

快而不准 vs 准而慢：推测解码的经典两难

目前主流的草稿模型分两类，各有各的问题。

自回归式草稿模型（代表：Eagle3）：逐token串行生成候选序列，因为每个位置都能看到前面的token，语义连贯性好、接受率高。但生成速度随候选长度线性增长，速度瓶颈明显，只能维持较短的候选块。

并行式草稿模型（代表：DFlash）：一次性生成所有候选位置，速度快。但问题来了——生成第5个候选token时，模型还不知道前面4个位置会被采样成什么，只能独立预测。这会导致"后缀衰减"：越靠后的位置错误越多，接受率断崖式下降。

方案	生成速度	接受率	主要问题
Eagle3（自回归）	较慢	高	候选长度受限
DFlash（并行）	快	后段衰减	后缀位置接受率低
MTP-1（生产基线）	中等	中等	高并发下吞吐量瓶颈

在高并发场景下，问题更复杂。固定验证长度的策略很难适应不同请求的实际需求：对简单请求分配太多验证长度是浪费，对复杂请求分配太少又拿不到速度收益。批处理能力就这样被低效策略白白耗掉了。

DSpark要解决的，就是在这两个维度上同时做好。

DSpark如何"鱼与熊掌兼得"？两大核心机制

半自回归生成架构：融合两派优势

DSpark的草稿模型不是纯并行也不是纯串行，而是两层叠加。

第一层是并行骨干网络（基于DFlash改进），一次性扫描输入，生成所有候选位置的隐藏状态和初始概率分布。速度优势在这里建立。

第二层是轻量级顺序模块，逐token顺序注入前缀依赖信息。具体实现是马尔可夫头或RNN头——每个位置在并行骨干的基础上，额外看一眼前一个位置被采样后的状态，据此微调当前位置的概率。

举个例子：假设候选序列第一个位置预测了"off"，第二个位置并行骨干给出的初始分布里"problem"概率最高。顺序模块看到"off"被采样之后，会把第二个位置的概率往"cost"方向调整，因为"off-cost"比"off-problem"更符合语言习惯。这个调整很轻量，但对接受率的影响显著。

实验数据验证了这个设计的效率：两层DSpark的平均接受长度，超过了五层DFlash。参数没有增加多少，准确率却上去了。与Eagle3相比，平均接受长度提升26%-31%；与DFlash相比，提升16%-18%。

置信度调度验证机制：动态资源分配

光生成得好还不够，还得聪明地决定每个请求验证多少个候选token。

DSpark为每个候选位置输出一个置信度分数，代表该位置被大模型接受的估计概率。通过逐位置温度缩放校准，置信度与真实接受率的误差被压缩到1%以内——也就是说，模型说"这个位置80%会被接受"，实际上就真的是80%左右。

有了可靠的置信度之后，调度器做的事情是：把所有并发请求的候选token按存活概率全局排序，再根据当前系统负载动态决定每个请求的验证长度。低并发时，给每个请求分配4-6个token的验证长度；高并发时，自动收窄。整个调度逻辑跑在GPU内部，不需要CPU参与，调度延迟基本为零。

这个机制的价值在于：系统不再需要人工设置验证长度的超参数，也不需要在不同负载场景下手动调整。边跑边校准，自动适应。

数据说话：实验室测试和真实部署的表现

离线基准测试

测试覆盖了Qwen3系列（4B/8B/14B）和Gemma4-12B四个模型，任务包括数学推理（GSM8K、MATH500、AIME25）、代码生成（MBPP、HumanEval、LiveCodeBench）和日常对话（MT-Bench、Alpaca、Arena-Hard）。

以Qwen3-14B为例，DSpark相比Eagle3平均接受长度提升约30%，相比DFlash提升18.3%。在代码生成和数学推理任务上提升幅度更大，因为这类任务输出序列长、局部语义依赖强，正好是半自回归架构的优势区间。

生产环境实测

生产数据是最有说服力的部分。DeepSeek在V4-Flash和V4-Pro两个引擎上都给出了对比MTP-1基线的结果：

引擎	SLA（token/s）	吞吐量提升
DeepSeek-V4-Flash	80	+51%
DeepSeek-V4-Flash	120	+661%
DeepSeek-V4-Pro	35	+52%
DeepSeek-V4-Pro	50	+406%

高SLA场景下的提升幅度远高于低SLA，这是因为高速响应要求下批处理空间更紧张，动态调度的优化效果被放大了。

在匹配相同吞吐量水平的前提下，单用户token生成速度提升57%-85%。这两个数字不是取其一，而是同时成立——系统既能服务更多并发用户，单个用户等待的时间也更短。帕累托改进：吞吐量和延迟同时改善，没有取舍。

魔鬼在细节：DSpark的工程打磨

算法设计是一回事，能不能在生产环境跑通是另一回事。DSpark在工程实现上做了几个关键处理。

训练阶段的通信优化：草稿模型训练时，主模型和草稿模型之间需要传递中间状态。如果传递完整词表的logits，通信量是O(V)，V是词表大小（通常十几万）。DSpark改为只传递隐藏状态，通信复杂度降至O(d)，d是隐藏层维度（通常几千）。这一个改动让分布式训练的通信开销大幅下降。训练时还采用了锚点定长序列打包策略，避免因序列长度不一致带来的填充浪费。

调度器的异步设计：用当前轮的置信度排序，但截断长度的决策依据历史预测——两件事错开执行。这样调度计算不会出现在关键路径上，延迟被完全隐藏。

动态变长支持：推测解码的一个麻烦是每轮验证后序列长度都会变化，不同请求的序列长度还各不相同。DSpark通过将物理执行与逻辑序列跟踪解耦，配合稀疏注意力传递块内依赖关系，让系统能正确处理变长输入，不需要对齐填充。

在线校准：部署后系统会持续统计真实接受率，与置信度预测值对比，动态修正校准参数。这保证了长期运行中置信度估计不会漂移。

这些工程细节单独拿出来都不算新技术，但把它们组合成一个稳定运行的生产系统，需要对整条链路有深入理解。

全链路开源：DSpark给行业送了什么

DeepSeek在GitHub的DeepSpec项目中开源了完整内容：DSpark、DFlash、Eagle3三种草稿模型的训练代码、评估脚本和模型检查点。不是只开源推理代码，而是从头训练到评估全链路都给了出来。

支持的外部模型包括Qwen3、Gemma等，不限于DeepSeek自家模型。对其他团队来说，这等于直接拿到了生产级推理加速工具链，不用从零开始复现。

当然也有局限。并行主干的设计决定了，无论某个请求的查询有多难，系统都要先生成完整的初始候选块。对那些草稿质量本来就很差的复杂查询，这部分计算开销无法回收。目前没有机制在生成候选之前提前判断"这个查询值不值得做推测解码"。

从算法到系统：DSpark说明了什么问题

DSpark用到的每一个技术组件——半自回归生成、置信度打分、动态调度——都不是全新发明。推测解码本身是老概念，马尔可夫头和RNN头也有先例，温度缩放校准是标准操作。

DSpark的贡献在于把这些东西整合成一个端到端可部署的生产系统，并且在已经高度优化的生产基线MTP-1之上再叠加出60%-85%的速度提升。后者尤其困难——在基线已经很强的情况下继续做增量优化，比从头做一个系统要难得多，因为容易摘的果子都已经摘完了。

梁文峰亲自挂名通讯作者这件事本身也值得关注。这不是常规的工程优化报告，而是在说：这类系统级工程工作在DeepSeek内部被当作核心研究方向对待，而不只是产品团队的技术债。

大模型推理加速这个方向，单点算法突破的红利正在收窄。DSpark的路径——把半自回归架构、置信度估计、硬件感知调度、在线校准整合成一个互相咬合的系统——大概率是接下来这个领域真正有效的做法。