注意力机制与 Transformer

注意力机制

鸡尾酒会效应

当一个人在吵闹的鸡尾酒会上和朋友聊天时，尽管周围噪音干扰很多，他还是可以听到朋友的谈话内容，而忽略其他人的声音。

同时，如果未注意到的背景声中有重要的词（比如他的名字），他会马上注意到。

如何实现

自下而上 — 汇聚（pooling）
自上而下 — 会聚（focus）

人工神经网络中的注意力机制

注意力模型

软性注意力机制（soft attention mechanism）

按照概率混合所有词

计算注意力分布 $α$ ：

α_{n} = p (z = n | X, q) = softmax (s (x_{n}, q)) = \frac{\exp (s (x_{n}, q))}{\sum_{j = 1}^{N} \exp (s (x_{j}, q))}

其中 $s (x_{n}, q)$ 为打分函数。

根据 $α$ 来计算输入信息的加权平均：

att (X, q) = \sum_{n = 1}^{N} α_{n} x_{n} = E_{z \sim p (z | X, q)} [x_{z}]

注意力打分函数 $s (x, q)$ ：

模型	打分函数
加性模型	$s (x, q) = v^{T} \tanh (W x + U q)$
点积模型	$s (x, q) = x^{T} q$
缩放点积模型	$s (x, q) = \frac{x^{T} q}{\sqrt{D}}$
双线性模型	$s (x, q) = x^{T} W q$

注意力机制的变体

硬性注意力（hard attention）
键值对注意力（key-value pair attention）
- 用 $(K, V) = [(k_{1}, v_{1}), \dots, (k_{N}, v_{N})]$ 表示 $N$ 个输入信息
- $att ((K, V), q) = \sum_{n = 1}^{N} α_{n} v_{n} = \sum_{n = 1}^{N} \frac{\exp (s (k_{n}, q))}{\sum_{j} \exp (s (k_{j}, q))} v_{n}$
多头注意力（multi-head attention）
- 用多个查询 $Q$ 并行输出多组信息
- $att ((K, V), Q) = att ((K, V), q_{1}) \oplus \dots \oplus att ((K, V), q_{M})$
结构化注意力（structural attention）
- 层次化注意力
指针网络（pointer network）
- 我们可以只利用注意力机制中的第一步，将注意力分布作为一个软性的指针（pointer）来指出相关信息的位置。

自注意力模型

输入序列为 $X = [x_{1}, \dots, x_{N}] \in R^{D_{x} \times N}$

首先生成三个向量序列：
- $Q = W_{q} X \in R^{d_{k} \times N}$
- $K = W_{k} X \in R^{d_{k} \times N}$
- $V = W_{v} X \in R^{d_{v} \times N}$
计算 $h_{n}$ ： $h_{n} = att ((K, V), q_{n})$
如果使用缩放点积来作为注意力打分函数，输出向量序列可以简写为：

H = V \cdot softmax (\frac{K^{T} Q}{\sqrt{D_{k}}})

qkv

你可以尝试用自注意力机制取代 RNN 所做的任何任务。

Transformer Encoder

除了自注意力机制还用到了：

位置编码

Positional Encoding

\begin{aligned} P E (p o s, 2 i) & = \sin (p o s / 10000^{2 i / d}) \\ P E (p o s, 2 i + 1) & = \cos (p o s / 10000^{2 i / d}) \end{aligned}

层归一化

Add & Norm：

LayerNorm (X + MultiHeadAttention (X))

LayerNorm (X + FeedForward (X))

Add — 残差连接
Norm — 将每一层神经元的输入都转成均值方差都一样的，这样可以加快收敛

Transformer-Decoder

Masked 多头注意力机制，在翻译的过程中是顺序翻译的，即翻译完第 $i$ 个单词，才可以翻译第 $i + 1$ 个单词。

复杂度分析

模型	每层复杂度	序列操作数	最大路径长度
CNN	$O (k L d^{2})$	$O (1)$	$O (\log_{k} (L))$
RNN	$O (L d^{2})$	$O (L)$	$O (L)$
Transformer	$O (L^{2} d)$	$O (1)$	$O (1)$

$k$ ：卷积核大小
$L$ ：序列长度
$d$ ：维度

注意力机制与 Transformer ​

注意力机制 ​

鸡尾酒会效应 ​

如何实现 ​

人工神经网络中的注意力机制 ​

注意力模型 ​

软性注意力机制（soft attention mechanism） ​

注意力机制的变体 ​

自注意力模型 ​

Transformer Encoder ​

位置编码 ​

层归一化 ​

Transformer-Decoder ​

复杂度分析 ​