)
文章目录🤔 1. 为什么(Why)问题场景:表达能力不足直觉理解:厨房加工数学本质理论支撑(通用逼近定理):📐 2. 是什么(What)标准 FeedForward 结构为什么要"扩张-压缩"?SwiGLU 激活函数SiLU(Swish)激活函数GLU 变体对比FeedForward 与 Attention 的分工参数量分析🔬 3. 怎么验证(How to Verify)实验 1:FeedForward 基础💡 4. 关键要点总结核心概念设计原则🤔 1. 为什么(Why)问题场景:表达能力不足Attention的局限:Attention 负责"信息交换"但只是加权平均,都是线性操作无法表达复杂的非线性变换例子:输入:[0.5,1.0,0.8]→ 某个词的向量 目标:学习"这个词是动词还是名词"需要的是复杂的非线性决策边界,而不是简单的线性组合直觉理解:厨房加工🍳 类比:FeedForward就像厨房的加工过程输入:生食材(768 维向量)扩张:切碎、展开(