作者:Aakash Lahoti*, Kevin Y. Li*, Berlin Chen*, Caitlin Wang* 等
机构:Carnegie Mellon University, Princeton University, Together AI, Cartesia AI
链接:arXiv:2603.15569v1
一句话总结
Mamba-3 从 SSM 理论视角出发,通过三项创新——指数梯形离散化(更精确的递推)、复值 SSM(解锁旋转动态 = 数据依赖 RoPE)、MIMO(免费提升推理算力利用率)——同时解决了次二次方模型在质量、能力和效率上的三大瓶颈。1.5B 规模下比 Transformer 高 2.2 个百分点,以一半状态大小匹配 Mamba-2 的困惑度。
前置知识:SSM 与 Mamba-1/2 回顾
SSM 的核心思想
状态空间模型用固定大小的隐藏状态替代 Transformer 的 KV cache 来压缩历史信息。离散化后的递推关系:
推理时每步只需更新固定大小的状态 ,内存 ,计算 ——不像 Transformer 要 attend 所有历史 token。
Mamba-1:选择性机制
Mamba-1 让 , , 都由当前 token 投影得到(数据依赖),使模型能根据输入内容动态决定记忆策略。 大 → 遗忘旧状态、强写入当前; 小 → 保留历史、忽略当前。
Mamba-2:状态空间对偶(SSD)
Mamba-2 发现 SSM 和线性注意力是同一件事:,其中 = Key, = Query, = Value, = 带衰减的结构化掩码。为了用 GPU 矩阵乘法加速训练, 被简化为标量乘单位矩阵。
Mamba-2 留下的三个问题
| 问题 | 原因 |
|---|---|
| 质量退化 | 为训练效率牺牲了表达力;Mamba-2 的离散化是一阶近似,缺乏理论证明 |
| 状态跟踪能力缺失 | 标量转移 只能衰减,无法表达旋转动态 → 奇偶性任务准确率 0.9% |
| 推理 GPU 利用率极低 | 解码算术强度仅 2.5 ops/byte,H100 的矩阵乘法峰值为 295 ops/byte,99% 算力闲置 |
Mamba-3 的三项创新分别对应解决这三个问题。
创新一:指数梯形离散化
问题:Mamba-1/2 的离散化缺乏理论依据
SSM 需要将连续 ODE 离散化。Mamba-1 声称用了 ZOH,但实际实现用了一个额外近似——Mamba-3 论文首次为其提供了理论证明,并将其命名为指数-欧拉(Exponential-Euler)。
核心推导思路:先用指数调整精确处理状态转移 ,再用不同数值方法近似状态输入积分:
指数-欧拉(一阶,Mamba-1/2)
用欧拉法(矩形法则)近似积分,取右端点值乘区间宽度:
一阶近似,误差 。这正是 Mamba-1 和 Mamba-2 实际使用的公式。
指数梯形(二阶,Mamba-3)
用广义梯形法则近似积分——取两个端点的数据依赖加权平均:
其中 是数据依赖参数。二阶近似,误差 。
对比 Mamba-2 的两项递推,Mamba-3 变成了三项递推——多了 ,上一步的输入也参与当前状态更新。
特殊情况
| 结果 | |
|---|---|
| ,退化为 Mamba-2 的欧拉方法 | |
| 经典梯形法则(两端点等权平均) | |
| 自由学习 | Mamba-3 默认设置,最大表达力 |
隐式宽度-2 卷积
三项递推等价于先对状态输入 做宽度-2 的数据依赖卷积,再送入标准线性递推:
这与 Mamba-1 中在递推外部对原始输入做的短因果卷积不同——Mamba-3 的卷积在递推内部对状态输入做。
淘汰短卷积
Mamba-3 还在 , 上添加了可学习的头特定偏置(初始化全 1),引入数据无关分量。指数梯形的隐式卷积 + BC 偏置的协同效应使短因果卷积变得多余:
| 配置 | 困惑度 ↓ |
|---|---|
| Mamba-3 无偏置、无梯形 | 16.68 |
| Mamba-3 无偏置 | 16.49 |
| Mamba-3(完整) | 15.72 |
| Mamba-3 + 短卷积 | 15.85(加了反而更差) |
SSD 并行形式
Mamba-3 仍是 SSD 的实例。掩码 变为 1-半可分矩阵与 2-带矩阵(而非 Mamba-2 的对角矩阵)的乘积:
创新二:复值 SSM 与数据依赖 RoPE
问题:实值 SSM 无法做旋转
Mamba-2 的 只能让状态单调衰减,无法表达旋转。而奇偶性任务需要“遇到 1 就翻转状态”:
旋转矩阵 的特征值为 ——负数,Mamba-2 的 范围无法表达。
解法:复值 SSM
Mamba-3 从复值 SSM 出发: 的虚部 编码旋转角度。
命题 2:离散化后,复值 SSM 等价于实值 SSM + 块对角旋转矩阵:
其中 由 旋转矩阵 组成的块对角矩阵。
RoPE 技巧
直接在递推中乘 需要 的矩阵-向量乘法。命题 3 证明旋转可以“挪”到 , 上:
因为 是块对角的 旋转,累积旋转只需角度相加 ,然后对 , 的每对维度做 cos/sin 旋转——整个操作 ,而非 。
| 标准 RoPE | Mamba-3 RoPE | |
|---|---|---|
| 旋转角度 | 固定频率 | 数据依赖的 |
| 作用对象 | Q 和 K | C 和 B(= Q 和 K) |
| 依赖什么 | 只跟位置有关 | 跟输入内容和位置都有关 |
标准 RoPE 的旋转角度是固定的,无法实现“遇到 1 旋转 180°、遇到 0 不旋转”这样的条件逻辑。Mamba-3 的 由当前 token 投影产生,旋转角度根据输入动态调整。
状态跟踪实验
| 任务 | Mamba-3 | Mamba-3(标准 RoPE) | Mamba-3(无 RoPE) | Mamba-2 |
|---|---|---|---|---|
| 奇偶性 | 100.0% | 1.6% | 2.3% | 0.9% |
| 模运算(无括号) | 98.5% | 20.7% | 1.5% | 47.8% |
| 模运算(有括号) | 87.8% | 2.6% | 0.7% | 0.9% |
数据依赖 RoPE 是关键:标准 RoPE 几乎不起作用,因为旋转角度必须依赖输入内容才能实现条件翻转。
创新三:MIMO
问题:GPU 算力严重闲置
SSM 解码的核心操作是状态更新 。瓶颈在于读写状态 的内存带宽,而外积 的计算量太小,GPU 的矩阵乘法单元几乎全部闲置。
算术强度仅 2.5 ops/byte,而 H100 峰值为 295 ops/byte。
解法:外积升级为矩阵乘法
把 升级为 , 升级为 :
| 特性 | SISO | MIMO(秩 ) |
|---|---|---|
| 算术强度 | ops/byte | (提升 倍) |
| 解码 FLOPs | ||
| 状态大小 | (不变) | |
| 实际延迟 | 基线 | 几乎不变 |
为什么延迟几乎不变
操作是内存受限的:瓶颈在于读写状态 ( 个数),这个量不变。增加的 倍计算可以叠加在内存操作的等待时间上,GPU 计算单元原本就是空闲的。
类比:开卡车运货,路程(内存带宽)是 10 分钟,SISO 搬 1 箱(1 分钟),MIMO 搬 4 箱(4 分钟)。总时间从 21 分钟到 24 分钟,多了 14%,但运了 4 倍的货。
为什么能提升模型质量
SISO 每步向状态写入 rank-1 的更新(“一维信息”),MIMO 写入 rank- 的更新(“ 维信息”)。状态大小不变但每步写入的信息更丰富,压缩质量更高。
训练策略
MIMO 可分解为 个 SISO 并行计算。通过设块大小 ,训练开销从 倍降到 倍。实测 时仅 2 倍训练减速。
MLP 宽度略减以保持参数匹配(1.5B 模型仅减 6.6%)。
完整 Mamba-3 架构
整体遵循 Llama 风格,交替 Mamba-3 块 + SwiGLU 块 + 预归一化。
关键架构决策:
- BC/QK 归一化:, 投影后加 RMSNorm,稳定训练并移除 Mamba-2 的门控后归一化
- BC 偏置:头特定通道偏置引入数据无关分量,与指数梯形协同替代短卷积
- 无短卷积、无激活函数:Mamba-1/2 中被认为必需的短因果卷积和 SiLU 完全被移除
- 两个变体:SISO(默认,公平比较用)和 MIMO(,更强但训练略慢)
实验结果
1.5B 下游准确率
| 模型 | 困惑度 ↓ | HellaSwag | PIQA | Arc-C | 平均 |
|---|---|---|---|---|---|
| Transformer | 10.51 | 60.6 | 73.8 | 40.4 | 55.4 |
| GDN | 10.45 | 61.3 | 74.3 | 41.2 | 55.8 |
| Mamba-2 | 10.47 | 61.4 | 73.6 | 41.8 | 55.7 |
| Mamba-3 SISO | 10.35 | 61.9 | 73.6 | 42.7 | 56.4 |
| Mamba-3 MIMO | 10.24 | 62.3 | 75.3 | 44.5 | 57.6 |
Mamba-3 MIMO 比 Transformer 高 +2.2,比 Mamba-2 高 +1.9 个百分点。
推理内核延迟
| 模型 | BF16, | BF16, |
|---|---|---|
| Mamba-2 | 0.127 ms | 0.203 ms |
| GDN | 0.176 ms | 0.257 ms |
| Mamba-3 SISO | 0.110 ms | 0.156 ms |
| Mamba-3 MIMO () | 0.137 ms | 0.179 ms |
SISO 是所有模型中最快的。MIMO 增加了 倍 FLOPs 但延迟只增约 15%。
性能-效率权衡
状态大小 64 的 Mamba-3 MIMO 匹配状态大小 128 的 Mamba-2 的困惑度——即以一半延迟达到相同性能。
总结
Mamba-3 的三项创新都来自 SSM 的理论视角,且不是从线性注意力或测试时回归等其他视角能自然想到的:
- 指数梯形离散化:首次为 Mamba-1/2 的启发式公式提供理论证明,并推广为二阶精确方法,引入隐式状态输入卷积,配合 BC 偏置淘汰了短因果卷积
- 复值 SSM:通过复值状态转移实现旋转动态,等价于数据依赖 RoPE,解锁了 SSM 的状态跟踪能力(奇偶性从 0.9% → 100%)
- MIMO:将 SISO 外积升级为矩阵乘法,在不增加状态大小和解码延迟的前提下提升 倍 FLOPs 和建模能力
三者的协同使 Mamba-3 在质量(+2.2 vs Transformer)、能力(解锁状态跟踪)和效率(一半状态大小匹配 Mamba-2)上全面推进了性能-效率帕累托前沿。