标签：注意力机制

Log-Linear Attention 论文深度阅读笔记：结构化掩码矩阵统一视角、Fenwick 树分区、HODLR 层次矩阵、分块并行扫描训练算法，如何用 O(log T) 个隐藏状态在效率和表达能力之间取得新平衡。

2026 年 3 月 30 日

InfLLM-V2 论文阅读笔记：零额外参数、Dense-Sparse Switchable Attention、三阶段块选择与高效 kernel，如何把短序列预训练和平滑的长上下文适配真正打通。

2026 年 3 月 30 日

Memory Sparse Attention (MSA) 论文的深度阅读笔记，包含方法拆解、推理流程分析和批判性思考。

2026 年 3 月 27 日