论文解读:DeepSeek DSpark 在真实高并发推理服务中,如何保证 Token 生成又好又快?刚刚过去的周末,DeepSeek 发布了一篇关于推理加速的新论文:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,内容聚焦在大模型推理服务中的一个具体问题:在真实高并发场景下,Speculative Decoding 如何既提升生成速度,又减少目标大模型的无效验证计算?