Infini-Attention

Google 提出的无限长序列注意力机制，通过压缩记忆实现 $O(1)$ 内存的无限上下文

Overview

Infini-Attention 解决了标准 Transformer 的 $O(N^2)$ 上下文记忆限制。核心思想是用压缩记忆 (compressive memory) 替代随序列长度增长的 KV Cache，通过关联绑定操作实现固定参数量的长期记忆存储和检索。

用 Query 从记忆库 $M_{s-1}$ 中检索内容： $$A_{\text{mem}} = \frac{\sigma(Q) M_{s-1}}{\sigma(Q) z_{s-1}}$$ 其中 $\sigma$ 是非线性激活，$z_{s-1}$ 是归一化项。

线性更新：$M_s \leftarrow M_{s-1} + \sigma(K)^T V$
Delta 规则：$M_s \leftarrow M_{s-1} + \sigma(K)^T (V - \frac{\sigma(K) M_{s-1}}{\sigma(K) z_{s-1}})$
键值已存在时保持矩阵不变
跟踪相同归一化项保证数值稳定性

通过门控标量 $\beta$ 聚合局部注意力和记忆内容： $$A = \text{sigmoid}(\beta) \odot A_{\text{mem}} + (1 - \text{sigmoid}(\beta)) \odot A_{\text{dot}}$$

并行计算 $H$ 个上下文状态，串联投影： $$O = [A_1; \ldots; A_H] W_O$$