Break the Sequential Dependency of LLM Inference Using Lookahead Decoding
【大模型推理加速】基于前瞻解码的并行化无损加速算法:打破自回归依赖的高效LLM推理