推测解码

论文阅读:Speculative Speculative Decoding — 消除推测解码的最后一个顺序瓶颈
SSD 论文深度阅读笔记:如何通过预推测缓存将草稿生成与验证完全并行化,实现比标准 SD 最多 2 倍、比自回归最多 5 倍的加速。