论文阅读：Mamba-3 — 从 SSM 原理出发同时改善质量、能力与效率

论文：Mamba-3: Improved Sequence Modeling using State Space Principles
作者：Aakash Lahoti*, Kevin Y. Li*, Berlin Chen*, Caitlin Wang* 等
机构：Carnegie Mellon University, Princeton University, Together AI, Cartesia AI
链接：arXiv:2603.15569v1

一句话总结

Mamba-3 从 SSM 理论视角出发，通过三项创新——指数梯形离散化（更精确的递推）、复值 SSM（解锁旋转动态 = 数据依赖 RoPE）、MIMO（免费提升推理算力利用率）——同时解决了次二次方模型在质量、能力和效率上的三大瓶颈。1.5B 规模下比 Transformer 高 2.2 个百分点，以一半状态大小匹配 Mamba-2 的困惑度。

前置知识：SSM 与 Mamba-1/2 回顾

SSM 的核心思想

状态空间模型用固定大小的隐藏状态替代 Transformer 的 KV cache 来压缩历史信息。离散化后的递推关系：

推理时每步只需更新固定大小的状态，内存，计算 ——不像 Transformer 要 attend 所有历史 token。

Mamba-1：选择性机制

Mamba-1 让 , , 都由当前 token 投影得到（数据依赖），使模型能根据输入内容动态决定记忆策略。大 → 遗忘旧状态、强写入当前；小 → 保留历史、忽略当前。

Mamba-2：状态空间对偶（SSD）

Mamba-2 发现 SSM 和线性注意力是同一件事：，其中 = Key， = Query， = Value， = 带衰减的结构化掩码。为了用 GPU 矩阵乘法加速训练，被简化为标量乘单位矩阵。

Mamba-2 留下的三个问题

问题	原因
质量退化	为训练效率牺牲了表达力；Mamba-2 的离散化是一阶近似，缺乏理论证明
状态跟踪能力缺失	标量转移只能衰减，无法表达旋转动态 → 奇偶性任务准确率 0.9%
推理 GPU 利用率极低	解码算术强度仅 2.5 ops/byte，H100 的矩阵乘法峰值为 295 ops/byte，99% 算力闲置

Mamba-3 的三项创新分别对应解决这三个问题。

创新一：指数梯形离散化

问题：Mamba-1/2 的离散化缺乏理论依据

SSM 需要将连续 ODE 离散化。Mamba-1 声称用了 ZOH，但实际实现用了一个额外近似——Mamba-3 论文首次为其提供了理论证明，并将其命名为指数-欧拉（Exponential-Euler）。

核心推导思路：先用指数调整精确处理状态转移，再用不同数值方法近似状态输入积分：

指数-欧拉（一阶，Mamba-1/2）

用欧拉法（矩形法则）近似积分，取右端点值乘区间宽度：

一阶近似，误差。这正是 Mamba-1 和 Mamba-2 实际使用的公式。

指数梯形（二阶，Mamba-3）

用广义梯形法则近似积分——取两个端点的数据依赖加权平均：

其中是数据依赖参数。二阶近似，误差。

对比 Mamba-2 的两项递推，Mamba-3 变成了三项递推——多了，上一步的输入也参与当前状态更新。

特殊情况

	结果
	，退化为 Mamba-2 的欧拉方法
	经典梯形法则（两端点等权平均）
自由学习	Mamba-3 默认设置，最大表达力

隐式宽度-2 卷积

三项递推等价于先对状态输入做宽度-2 的数据依赖卷积，再送入标准线性递推：

这与 Mamba-1 中在递推外部对原始输入做的短因果卷积不同——Mamba-3 的卷积在递推内部对状态输入做。

淘汰短卷积

Mamba-3 还在 , 上添加了可学习的头特定偏置（初始化全 1），引入数据无关分量。指数梯形的隐式卷积 + BC 偏置的协同效应使短因果卷积变得多余：

配置	困惑度 ↓
Mamba-3 无偏置、无梯形	16.68
Mamba-3 无偏置	16.49
Mamba-3（完整）	15.72
Mamba-3 + 短卷积	15.85（加了反而更差）

SSD 并行形式

Mamba-3 仍是 SSD 的实例。掩码变为 1-半可分矩阵与 2-带矩阵（而非 Mamba-2 的对角矩阵）的乘积：

创新二：复值 SSM 与数据依赖 RoPE

问题：实值 SSM 无法做旋转

Mamba-2 的只能让状态单调衰减，无法表达旋转。而奇偶性任务需要“遇到 1 就翻转状态”：

旋转矩阵的特征值为 ——负数，Mamba-2 的范围无法表达。

解法：复值 SSM

Mamba-3 从复值 SSM 出发：的虚部编码旋转角度。

命题 2：离散化后，复值 SSM 等价于实值 SSM + 块对角旋转矩阵：

其中由旋转矩阵组成的块对角矩阵。

RoPE 技巧

直接在递推中乘需要的矩阵-向量乘法。命题 3 证明旋转可以“挪”到 , 上：

因为是块对角的旋转，累积旋转只需角度相加 ，然后对 , 的每对维度做 cos/sin 旋转——整个操作，而非。

	标准 RoPE	Mamba-3 RoPE
旋转角度	固定频率	数据依赖的
作用对象	Q 和 K	C 和 B（= Q 和 K）
依赖什么	只跟位置有关	跟输入内容和位置都有关

首个有理论动机的数据依赖 RoPE

标准 RoPE 的旋转角度是固定的，无法实现“遇到 1 旋转 180°、遇到 0 不旋转”这样的条件逻辑。Mamba-3 的由当前 token 投影产生，旋转角度根据输入动态调整。

状态跟踪实验

任务	Mamba-3	Mamba-3（标准 RoPE）	Mamba-3（无 RoPE）	Mamba-2
奇偶性	100.0%	1.6%	2.3%	0.9%
模运算（无括号）	98.5%	20.7%	1.5%	47.8%
模运算（有括号）	87.8%	2.6%	0.7%	0.9%

数据依赖 RoPE 是关键：标准 RoPE 几乎不起作用，因为旋转角度必须依赖输入内容才能实现条件翻转。

创新三：MIMO

问题：GPU 算力严重闲置

SSM 解码的核心操作是状态更新。瓶颈在于读写状态的内存带宽，而外积的计算量太小，GPU 的矩阵乘法单元几乎全部闲置。

算术强度仅 2.5 ops/byte，而 H100 峰值为 295 ops/byte。

解法：外积升级为矩阵乘法

把升级为，升级为：

特性	SISO	MIMO（秩）
算术强度	ops/byte	（提升倍）
解码 FLOPs
状态大小		（不变）
实际延迟	基线	几乎不变

为什么延迟几乎不变

操作是内存受限的：瓶颈在于读写状态（个数），这个量不变。增加的倍计算可以叠加在内存操作的等待时间上，GPU 计算单元原本就是空闲的。

类比：开卡车运货，路程（内存带宽）是 10 分钟，SISO 搬 1 箱（1 分钟），MIMO 搬 4 箱（4 分钟）。总时间从 21 分钟到 24 分钟，多了 14%，但运了 4 倍的货。

为什么能提升模型质量

SISO 每步向状态写入 rank-1 的更新（“一维信息”），MIMO 写入 rank- 的更新（“ 维信息”）。状态大小不变但每步写入的信息更丰富，压缩质量更高。

训练策略

MIMO 可分解为个 SISO 并行计算。通过设块大小，训练开销从倍降到倍。实测时仅 2 倍训练减速。

MLP 宽度略减以保持参数匹配（1.5B 模型仅减 6.6%）。

完整 Mamba-3 架构

整体遵循 Llama 风格，交替 Mamba-3 块 + SwiGLU 块 + 预归一化。

关键架构决策：

BC/QK 归一化：, 投影后加 RMSNorm，稳定训练并移除 Mamba-2 的门控后归一化
BC 偏置：头特定通道偏置引入数据无关分量，与指数梯形协同替代短卷积
无短卷积、无激活函数：Mamba-1/2 中被认为必需的短因果卷积和 SiLU 完全被移除
两个变体：SISO（默认，公平比较用）和 MIMO（，更强但训练略慢）

实验结果

1.5B 下游准确率

模型	困惑度 ↓	HellaSwag	PIQA	Arc-C	平均
Transformer	10.51	60.6	73.8	40.4	55.4
GDN	10.45	61.3	74.3	41.2	55.8
Mamba-2	10.47	61.4	73.6	41.8	55.7
Mamba-3 SISO	10.35	61.9	73.6	42.7	56.4
Mamba-3 MIMO	10.24	62.3	75.3	44.5	57.6

Mamba-3 MIMO 比 Transformer 高 +2.2，比 Mamba-2 高 +1.9 个百分点。

推理内核延迟

模型	BF16,	BF16,
Mamba-2	0.127 ms	0.203 ms
GDN	0.176 ms	0.257 ms
Mamba-3 SISO	0.110 ms	0.156 ms
Mamba-3 MIMO ()	0.137 ms	0.179 ms

SISO 是所有模型中最快的。MIMO 增加了倍 FLOPs 但延迟只增约 15%。

性能-效率权衡

状态大小 64 的 Mamba-3 MIMO 匹配状态大小 128 的 Mamba-2 的困惑度——即以一半延迟达到相同性能。

总结

Mamba-3 的三项创新都来自 SSM 的理论视角，且不是从线性注意力或测试时回归等其他视角能自然想到的：

指数梯形离散化：首次为 Mamba-1/2 的启发式公式提供理论证明，并推广为二阶精确方法，引入隐式状态输入卷积，配合 BC 偏置淘汰了短因果卷积
复值 SSM：通过复值状态转移实现旋转动态，等价于数据依赖 RoPE，解锁了 SSM 的状态跟踪能力（奇偶性从 0.9% → 100%）
MIMO：将 SISO 外积升级为矩阵乘法，在不增加状态大小和解码延迟的前提下提升倍 FLOPs 和建模能力

三者的协同使 Mamba-3 在质量（+2.2 vs Transformer）、能力（解锁状态跟踪）和效率（一半状态大小匹配 Mamba-2）上全面推进了性能-效率帕累托前沿。

标签

日期2026 年 3 月 29 日

分类论文阅读笔记