RoPE 与 ALiBi：位置编码的两种革命性范式

发布时间：2026/7/3 18:22:59

2017年Transformer诞生时，位置编码是一个事后追加的补丁——用正弦波给每个token贴上一个“位置标签”。RoPE和ALiBi的出现彻底改变了这个逻辑：位置信息不再是被动附加的标签，而是主动参与注意力计算的几何约束。这不是增量改进，而是对“位置是什么”这一根本问题的重新回答。一、基础：两种位置编码的诞生与定义1.1 为什么需要位置编码？Transformer的Self-Attention机制本质上是“集合运算”——它计算的是token之间的语义相似度，完全不感知顺序。对模型而言，“我打你”和“你打我”的注意力分数完全一样。位置编码就是为了打破这种“位置盲区”而生的。在RoPE和ALiBi出现之前，主流方案是绝对位置编码——为每个绝对位置分配一个固定向量，直接加到token embedding上。但绝对位置编码存在一个致命缺陷：无法外推。当推理时的序列长度超过训练时的最大长度，模型性能会断崖式下降。RoPE（Rotary Position Embedding）和ALiBi（Attention with Linear Biases）正是在这一背景下提出的两种相对位置编码方案。1.2 RoPE：用旋转“编码”相对位置RoPE由Su等人于2021年提出，其核心理念极富几何美感：将位置信息编码为向量旋转的角度。具体来说，对于位置为m的token，其Query和Key向量被旋转一个角度mθ；对于位置为

文章详情

RoPE 与 ALiBi：位置编码的两种革命性范式

相关新闻

最新新闻

日新闻

周新闻

月新闻