DeepSeek联合北大开源DSpark:高并发场景推理速度提升60%-85%
2026年6月27日,DeepSeek联合北大发布并开源DSpark推理加速框架,已用于DeepSeek-V4生产引擎,单用户生成速度提升60%-85%,高并发吞吐最高提升661%。
DeepSeek再次出手:联合北大破解大模型推理难题
6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架。梁文峰本人担任通讯作者,框架已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版的生产推理引擎。论文、训练代码和模型检查点同步在GitHub的DeepSpec项目中开源。
Fireworks AI的CTO、PyTorch核心维护者Dimitro在看到论文后自发撰写了技术解读博客,这在AI圈并不常见——通常只有真正解决了痛点的工作才会引发这类自发响应。
这次发布的核心数据是:相比此前的生产基线MTP-1,单用户token生成速度提升60%-85%,高并发场景下吞吐量提升最高超过600%。数字很大,但要理解为什么这很难做到,得先看清楚大模型推理到底卡在哪里。
为什么AI对话这么慢?推理效率的真正瓶颈
大模型生成文本的方式叫自回归:每次只生成一个token,生成完了才能生成下一个。输出100个token,就要做100次完整的前向传播。这意味着延迟随输出长度线性增长,没有捷径。
很多人以为是GPU算力不够,实际上瓶颈在显存带宽。每生成一个token,系统都要把整套模型权重从显存搬到计算单元,而当前GPU的算力增长远超显存带宽的增长速度。结果是:大部分时间不是在算,而是在等数据搬运。一张高端GPU,约90%的推理时间花在数据移动上。
推测解码(Speculative Decoding)就是为了绕开这个限制而生的。基本思路是:用一个小的草稿模型快速生成一批候选token,再让大模型一次性批量验证。批量验证能充分利用GPU的并行计算能力,等于把多次"一个token一次传播"压缩成"多个token一次传播"。如果草稿质量够高、大模型接受率够好,整体速度就能显著提升。
问题在于,如何让草稿模型又快又准。
快而不准 vs 准而慢:推测解码的经典两难
目前主流的草稿模型分两类,各有各的问题。
自回归式草稿模型(代表:Eagle3):逐token串行生成候选序列,因为每个位置都能看到前面的token,语义连贯性好、接受率高。但生成速度随候选长度线性增长,速度瓶颈明显,只能维持较短的候选块。
并行式草稿模型(代表:DFlash):一次性生成所有候选位置,速度快。但问题来了——生成第5个候选token时,模型还不知道前面4个位置会被采样成什么,只能独立预测。这会导致"后缀衰减":越靠后的位置错误越多,接受率断崖式下降。
| 方案 | 生成速度 | 接受率 | 主要问题 |
|---|---|---|---|
| Eagle3(自回归) | 较慢 | 高 | 候选长度受限 |
| DFlash(并行) | 快 | 后段衰减 | 后缀位置接受率低 |
| MTP-1(生产基线) | 中等 | 中等 | 高并发下吞吐量瓶颈 |
在高并发场景下,问题更复杂。固定验证长度的策略很难适应不同请求的实际需求:对简单请求分配太多验证长度是浪费,对复杂请求分配太少又拿不到速度收益。批处理能力就这样被低效策略白白耗掉了。
DSpark要解决的,就是在这两个维度上同时做好。
DSpark如何"鱼与熊掌兼得"?两大核心机制
半自回归生成架构:融合两派优势
DSpark的草稿模型不是纯并行也不是纯串行,而是两层叠加。
第一层是并行骨干网络(基于DFlash改进),一次性扫描输入,生成所有候选位置的隐藏状态和初始概率分布。速度优势在这里建立。
第二层是轻量级顺序模块,逐token顺序注入前缀依赖信息。具体实现是马尔可夫头或RNN头——每个位置在并行骨干的基础上,额外看一眼前一个位置被采样后的状态,据此微调当前位置的概率。
举个例子:假设候选序列第一个位置预测了"off",第二个位置并行骨干给出的初始分布里"problem"概率最高。顺序模块看到"off"被采样之后,会把第二个位置的概率往"cost"方向调整,因为"off-cost"比"off-problem"更符合语言习惯。这个调整很轻量,但对接受率的影响显著。
实验数据验证了这个设计的效率:两层DSpark的平均接受长度,超过了五层DFlash。参数没有增加多少,准确率却上去了。与Eagle3相比,平均接受长度提升26%-31%;与DFlash相比,提升16%-18%。
置信度调度验证机制:动态资源分配
光生成得好还不够,还得聪明地决定每个请求验证多少个候选token。
DSpark为每个候选位置输出一个置信度分数,代表该位置被大模型接受的估计概率。通过逐位置温度缩放校准,置信度与真实接受率的误差被压缩到1%以内——也就是说,模型说"这个位置80%会被接受",实际上就真的是80%左右。
有了可靠的置信度之后,调度器做的事情是:把所有并发请求的候选token按存活概率全局排序,再根据当前系统负载动态决定每个请求的验证长度。低并发时,给每个请求分配4-6个token的验证长度;高并发时,自动收窄。整个调度逻辑跑在GPU内部,不需要CPU参与,调度延迟基本为零。
这个机制的价值在于:系统不再需要人工设置验证长度的超参数,也不需要在不同负载场景下手动调整。边跑边校准,自动适应。
数据说话:实验室测试和真实部署的表现
离线基准测试
测试覆盖了Qwen3系列(4B/8B/14B)和Gemma4-12B四个模型,任务包括数学推理(GSM8K、MATH500、AIME25)、代码生成(MBPP、HumanEval、LiveCodeBench)和日常对话(MT-Bench、Alpaca、Arena-Hard)。
以Qwen3-14B为例,DSpark相比Eagle3平均接受长度提升约30%,相比DFlash提升18.3%。在代码生成和数学推理任务上提升幅度更大,因为这类任务输出序列长、局部语义依赖强,正好是半自回归架构的优势区间。
生产环境实测
生产数据是最有说服力的部分。DeepSeek在V4-Flash和V4-Pro两个引擎上都给出了对比MTP-1基线的结果:
| 引擎 | SLA(token/s) | 吞吐量提升 |
|---|---|---|
| DeepSeek-V4-Flash | 80 | +51% |
| DeepSeek-V4-Flash | 120 | +661% |
| DeepSeek-V4-Pro | 35 | +52% |
| DeepSeek-V4-Pro | 50 | +406% |
高SLA场景下的提升幅度远高于低SLA,这是因为高速响应要求下批处理空间更紧张,动态调度的优化效果被放大了。
在匹配相同吞吐量水平的前提下,单用户token生成速度提升57%-85%。这两个数字不是取其一,而是同时成立——系统既能服务更多并发用户,单个用户等待的时间也更短。帕累托改进:吞吐量和延迟同时改善,没有取舍。
魔鬼在细节:DSpark的工程打磨
算法设计是一回事,能不能在生产环境跑通是另一回事。DSpark在工程实现上做了几个关键处理。
训练阶段的通信优化:草稿模型训练时,主模型和草稿模型之间需要传递中间状态。如果传递完整词表的logits,通信量是O(V),V是词表大小(通常十几万)。DSpark改为只传递隐藏状态,通信复杂度降至O(d),d是隐藏层维度(通常几千)。这一个改动让分布式训练的通信开销大幅下降。训练时还采用了锚点定长序列打包策略,避免因序列长度不一致带来的填充浪费。
调度器的异步设计:用当前轮的置信度排序,但截断长度的决策依据历史预测——两件事错开执行。这样调度计算不会出现在关键路径上,延迟被完全隐藏。
动态变长支持:推测解码的一个麻烦是每轮验证后序列长度都会变化,不同请求的序列长度还各不相同。DSpark通过将物理执行与逻辑序列跟踪解耦,配合稀疏注意力传递块内依赖关系,让系统能正确处理变长输入,不需要对齐填充。
在线校准:部署后系统会持续统计真实接受率,与置信度预测值对比,动态修正校准参数。这保证了长期运行中置信度估计不会漂移。
这些工程细节单独拿出来都不算新技术,但把它们组合成一个稳定运行的生产系统,需要对整条链路有深入理解。
全链路开源:DSpark给行业送了什么
DeepSeek在GitHub的DeepSpec项目中开源了完整内容:DSpark、DFlash、Eagle3三种草稿模型的训练代码、评估脚本和模型检查点。不是只开源推理代码,而是从头训练到评估全链路都给了出来。
支持的外部模型包括Qwen3、Gemma等,不限于DeepSeek自家模型。对其他团队来说,这等于直接拿到了生产级推理加速工具链,不用从零开始复现。
当然也有局限。并行主干的设计决定了,无论某个请求的查询有多难,系统都要先生成完整的初始候选块。对那些草稿质量本来就很差的复杂查询,这部分计算开销无法回收。目前没有机制在生成候选之前提前判断"这个查询值不值得做推测解码"。
从算法到系统:DSpark说明了什么问题
DSpark用到的每一个技术组件——半自回归生成、置信度打分、动态调度——都不是全新发明。推测解码本身是老概念,马尔可夫头和RNN头也有先例,温度缩放校准是标准操作。
DSpark的贡献在于把这些东西整合成一个端到端可部署的生产系统,并且在已经高度优化的生产基线MTP-1之上再叠加出60%-85%的速度提升。后者尤其困难——在基线已经很强的情况下继续做增量优化,比从头做一个系统要难得多,因为容易摘的果子都已经摘完了。
梁文峰亲自挂名通讯作者这件事本身也值得关注。这不是常规的工程优化报告,而是在说:这类系统级工程工作在DeepSeek内部被当作核心研究方向对待,而不只是产品团队的技术债。
大模型推理加速这个方向,单点算法突破的红利正在收窄。DSpark的路径——把半自回归架构、置信度估计、硬件感知调度、在线校准整合成一个互相咬合的系统——大概率是接下来这个领域真正有效的做法。