MLP

Pre-Norm 变体（常用）：

\[ \mathbf{h}_t^l = \mathbf{u}_t^l + \mathrm{FFN}(\mathrm{LayerNorm}(\mathbf{u}_t^l)) \]

Post-Norm 变体（原始 Transformer）：

\[ \mathbf{h}_t^l = \mathrm{LayerNorm}\left( \mathbf{u}_t^l + \mathrm{FFN}(\mathbf{u}_t^l) \right) \]

对一个 token 的表示 \(\mathbf{u}_t^l \in \mathbb{R}^d\)，标准的前馈网络（Feed-Forward Network，FFN）结构如下：

\[ \mathbf{h}_t^l = \mathrm{FFN}\left( \mathbf{u}_t^l \right) + \mathbf{u}_t^l \]

\(\mathbf{u}_t^l\)：第 \(l\) 层中 token \(t\) 的输入向量，它是该层 attention 子层的输出。\(\boxed{\mathbf{u}_t^l = \mathrm{LayerNorm}\left(\mathbf{x}_t^l + \mathrm{Attention}(\mathbf{x}_t^l)\right)}\)
\(\mathbf{h}_t^l\)：第 \(l\) 层的最后输出。

其中 FFN 通常包含两层线性变换 + 非线性激活，例如：

\[ \mathrm{FFN}(\mathbf{x}) = W_2 \, \sigma(W_1 \mathbf{x} + b_1) + b_2 \]

\[ \mathbf{h}_t^l = \sum_{i=1}^{N} \left( g_{i,t} \, \mathrm{FFN}_i\left( \mathbf{u}_t^l \right) \right) + \mathbf{u}_t^l \]

这个公式表示：

🆚 MoE vs MLP：逐点对比