第09篇：位置编码——RoPE / ALiBi，Transformer 的“位置感“

发布时间：2026/7/2 6:37:43

前置知识：第06篇（Transformer 架构）/ 第07篇（LLaMA 架构）引言：为什么 Transformer 需要位置编码？Self-Attention 有一个"先天缺陷"——它是置换不变（permutation invariant）的。把输入[我, 爱, 你]打成[你, 爱, 我]，如果不加位置编码，注意力计算的输出向量完全一样——模型完全不知道词的顺序。这对语言模型来说是不可接受的，因为"我爱你"和"你爱我"是完全不同的意思。所以 Transformer 必须有一个注入位置信息的机制。这就是位置编码（Positional Encoding）要做的事。一、位置编码的类型谱系位置编码 ├── 绝对位置编码 │ ├── 可学习 (GPT-2/GPT-3) │ └── Sinusoidal (原始 Transformer) ├── 相对位置编码 │ ├── RoPE (LLaMA/Qwen) ← 当前主流 │ └── ALiBi (某些长上下文模型) └── 混合方案 └── XLNet / Transformer-XL 等二、可学习绝对位置编码

文章详情

第09篇：位置编码——RoPE / ALiBi，Transformer 的“位置感“

相关新闻

最新新闻

日新闻

周新闻

月新闻