大模型中间层如何涌现事实知识 中间层"有没有概率"?目录中间层"有没有概率"?严格说:**中间层本身没有概率,但可以"强行造出"概率**二、形象比喻:模型像"逐层修正答案"的学生三、具体例子:`"The capital of France is"`四、关键观察(为什么 DoLa 能成立)五、自己可以跑的最小代码(GPT-2,~5 行核心逻辑)六、不同模型上"事实涌现"的层位置(经验值)总结严格说:中间层本身没有概率,但可以"强行造出"概率LLM 一次前向计算的产物,分两类:层真正产出是不是概率?中间每一层 (hidden_l)隐向量[B, T, H],比如 H=4096❌ 不是概率,只是一组实数最终层 →lm_head→softmax词表分布[B, T, V]✅ 真概率所以中间层原生没有概率。但因为所有层的 hidden state 都和最终层在同一个表示空间里(残差流,residual stream),我们可以人为地把它送进同一个lm_head,得到"假如解码就停在第 l 层,下一个 token 会是什么"的分布。这套技巧叫:Logit Lens(nostalgebraist, 2020)—— 把每一层