
前置知识:第06篇(Transformer 架构)/ 第07篇(LLaMA 架构)引言:为什么 Transformer 需要位置编码?Self-Attention 有一个"先天缺陷"——它是置换不变(permutation invariant)的。把输入[我, 爱, 你]打成[你, 爱, 我],如果不加位置编码,注意力计算的输出向量完全一样——模型完全不知道词的顺序。这对语言模型来说是不可接受的,因为"我爱你"和"你爱我"是完全不同的意思。所以 Transformer 必须有一个注入位置信息的机制。这就是位置编码(Positional Encoding)要做的事。一、位置编码的类型谱系位置编码 ├── 绝对位置编码 │ ├── 可学习 (GPT-2/GPT-3) │ └── Sinusoidal (原始 Transformer) ├── 相对位置编码 │ ├── RoPE (LLaMA/Qwen) ← 当前主流 │ └── ALiBi (某些长上下文模型) └── 混合方案 └── XLNet / Transformer-XL 等二、可学习绝对位置编码