
这篇研究论文介绍了 DSpark,一个由北京大学和 DeepSeek-AI 联合开发的投机采样(Speculative Decoding)大模型推理加速框架。以下是该论文的核心要点总结:
核心痛点
传统的投机采样在提高大模型推理速度上面临两个瓶颈:
- 生成质量退化(后缀衰减): 并行草稿模型(如 DFlash)虽然生成速度快,但因为各 Token 独立预测,缺乏前后依赖关系,容易产生语义冲突(多模态碰撞),导致后面 Token 的接受率急剧下降。
- 系统效率浪费: 在高并发的生产环境中,如果不加选择地验证所有生成的草稿 Token,会浪费宝贵的计算算力去验证那些极易被拒绝的末尾 Token,从而降低系统整体吞吐量。
DSpark 的核心架构与创新
DSpark 通过结合高吞吐的并行生成与自适应的负载感知验证,完美平衡了这两大难题:
1. 半自回归生成(Semi-Autoregressive Generation)
- 并行骨干+轻量串行头: 保持昂贵的草稿模型主干完全并行(继承 DFlash 速度),但仅在输出端附加一个极轻量的串行模块(默认使用低秩因子化的 Markov 头,或使用 RNN 头)。
- 效果: 在保持高 drafting 速度的同时,为一整块 Token 注入了 causal 上下文依赖,大幅缓解了后缀衰减问题。
