论文阅读

论文阅读:Log-Linear Attention — 基于 Fenwick 树与层次矩阵的对数线性复杂度注意力机制
Log-Linear Attention 论文深度阅读笔记:结构化掩码矩阵统一视角、Fenwick 树分区、HODLR 层次矩阵、分块并行扫描训练算法,如何用 O(log T) 个隐藏状态在效率和表达能力之间取得新平衡。
论文阅读:InfLLM-V2 — 把可训练稀疏注意力做成全注意力的“受限版本”
InfLLM-V2 论文阅读笔记:零额外参数、Dense-Sparse Switchable Attention、三阶段块选择与高效 kernel,如何把短序列预训练和平滑的长上下文适配真正打通。
论文阅读:Mamba-3 — 从 SSM 原理出发同时改善质量、能力与效率
Mamba-3 论文深度阅读笔记:指数梯形离散化、复值 SSM(数据依赖 RoPE)、MIMO 三大创新如何同时解决次二次方模型的质量、状态跟踪能力和推理效率问题。
论文阅读:Speculative Speculative Decoding — 消除推测解码的最后一个顺序瓶颈
SSD 论文深度阅读笔记:如何通过预推测缓存将草稿生成与验证完全并行化,实现比标准 SD 最多 2 倍、比自回归最多 5 倍的加速。
论文阅读:TurboQuant — 近最优失真率的在线向量量化
TurboQuant 论文阅读笔记:如何通过随机旋转 + 逐坐标最优标量量化,在 data-oblivious 的在线设置下达到信息论下界 2.7 倍以内的 MSE 和内积失真。
论文阅读:ARCQuant — 用增强残差通道提升 NVFP4 量化精度
ARCQuant 论文阅读笔记:如何在统一 NVFP4 精度下,通过两次量化达到 FP8 级别的精度,同时保持硬件兼容性。
论文阅读:MSA — 将 LLM 记忆扩展到 1 亿 Token 的稀疏注意力框架
Memory Sparse Attention (MSA) 论文的深度阅读笔记,包含方法拆解、推理流程分析和批判性思考。