RoPE 与 ALiBi:位置编码的两种革命性范式 2017年Transformer诞生时,位置编码是一个事后追加的补丁——用正弦波给每个token贴上一个“位置标签”。RoPE和ALiBi的出现彻底改变了这个逻辑:位置信息不再是被动附加的标签,而是主动参与注意力计算的几何约束。这不是增量改进,而是对“位置是什么”这一根本问题的重新回答。一、基础:两种位置编码的诞生与定义1.1 为什么需要位置编码?Transformer的Self-Attention机制本质上是“集合运算”——它计算的是token之间的语义相似度,完全不感知顺序。对模型而言,“我打你”和“你打我”的注意力分数完全一样。位置编码就是为了打破这种“位置盲区”而生的。在RoPE和ALiBi出现之前,主流方案是绝对位置编码——为每个绝对位置分配一个固定向量,直接加到token embedding上。但绝对位置编码存在一个致命缺陷:无法外推。当推理时的序列长度超过训练时的最大长度,模型性能会断崖式下降。RoPE(Rotary Position Embedding)和ALiBi(Attention with Linear Biases)正是在这一背景下提出的两种相对位置编码方案。1.2 RoPE:用旋转“编码”相对位置RoPE由Su等人于2021年提出,其核心理念极富几何美感:将位置信息编码为向量旋转的角度。具体来说,对于位置为m的token,其Query和Key向量被旋转一个角度mθ;对于位置为