数学基础

线性代数

标量，向量运算 ...

向量

向量范数

满足以下条件的函数 $f : R^{n} \to R, dom f = R^{n}$ 称为范数：

非负： $\forall x \in R^{n}, f (x) \geq 0$
正定： $f (x) = 0 \to x = 0$
齐次： $\forall x \in R^{n}, t \in R, f (t x) = | t | f (x)$
三角不等式： $\forall x, y \in R^{n}, f (x + y) \leq f (x) + f (y)$

向量 $x \in R^{n}$ ，则 $R^{n}$ 上的 $ℓ_{1}$ -范数：

∥ x ∥_{1} = | x_{1} | + \dots + | x_{n} |

$ℓ_{\infty}$ -范数：

∥ x ∥_{\infty} = max {| x_{1} |, \dots, | x_{n} |}

更一般地：

∥ x ∥_{p} = (| x_{1} |^{p} + \dots + | x_{n} |^{p})^{\frac{1}{p}}

矩阵

Hadamard 积

点积

[A ⊙ B]_{m n} = a_{m n} b_{m n}

矩阵范数

算子（诱导）范数：

设：

c = A b

则：

∥ c ∥ \leq ∥ A ∥ \cdot ∥ b ∥

算子范数定义：

∥ A ∥ = max_{x \neq 0} \frac{∥ A x ∥}{∥ x ∥} = max_{∥ x ∥ = 1} ∥ A x ∥

一般的 $p$ -范数诱导矩阵范数：

∥ A ∥_{p} = max_{x \neq 0} \frac{∥ A x ∥_{p}}{∥ x ∥_{p}}

常见矩阵范数：

$1$ -范数（最大绝对列和）：

∥ A ∥_{1} = max_{1 \leq j \leq n} \sum_{i = 1}^{m} | a_{i j} |

$2$ -范数（谱范数）：

∥ A ∥_{2} = \sqrt{λ_{max} (A^{T} A)}

等价于 $A$ 的最大奇异值。

$\infty$ -范数（最大绝对行和）：

∥ A ∥_{\infty} = max_{1 \leq i \leq m} \sum_{j = 1}^{n} | a_{i j} |

Frobenius 范数：

∥ A ∥_{F} = \sqrt{\sum_{i, j} A_{i j}^{2}}

微积分

次导数：不可求导情况下的导数（左右导数之间的所有值）

输出 \ 输入	标量 $x (1,)$	向量 $x (n, 1)$	矩阵 $X (n, k)$
标量 $y (1,)$	$\frac{\partial y}{\partial x} (1,)$	$\frac{\partial y}{\partial x} (1, n)$	$\frac{\partial y}{\partial X} (k, n)$
向量 $y (m, 1)$	$\frac{\partial y}{\partial x} (m, 1)$	$\frac{\partial y}{\partial x} (m, n)$	$\frac{\partial y}{\partial X} (m, k, n)$
矩阵 $Y (m, l)$	$\frac{\partial Y}{\partial x} (m, l)$	$\frac{\partial Y}{\partial x} (m, l, n)$	$\frac{\partial Y}{\partial X} (m, l, k, n)$

数学优化

（最优化都学过）

概率论

（概率论都学过）

正态分布

p (x) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})

信息论

熵（Entropy）

自信息（Self Information）

I (x) = - \log (p (x))

熵

\begin{aligned} H (X) & = E_{X} [I (x)] \\ = E_{x} [- \log p (x)] \\ = - \sum_{x \in X} p (x) \log p (x) \end{aligned}

熵是理论最优平均编码长度，这种编码方式称为熵编码（Entropy Encoding）。

交叉熵（Cross Entropy）

交叉熵是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码的长度：

\begin{aligned} H (p, q) & = E_{p} [- \log q (x)] \\ = - \sum_{x} p (x) \log q (x) \end{aligned}

KL 散度（K-L Divergence）

KL 散度是用概率分布 $q$ 来近似 $p$ 时所造成的信息损失量：

D_{K L} (p, q) = H (p, q) - H (p) = \sum_{x} p (x) \log \frac{p (x)}{q (x)}

连续形式：

\int p (x) \log \frac{p (x)}{q (x)} d x

交叉熵损失

- \sum_{y = 1}^{C} p_{r} (y ∣ x) \log p_{θ} (y ∣ x)

ce_loss

真实概率 $p_{r} (y ∣ x)$ 与预测概率的负对数 $- \log p_{θ} (y ∣ x)$ 。

\begin{aligned} D_{K L} (p r (y ∣ x) ∥ p_{θ} (y ∣ x)) & = \int p r (y ∣ x) \log \frac{p r (y ∣ x)}{p_{θ} (y ∣ x)} d y \\ = \sum_{y = 0}^{k} p r (y ∣ x) \log \frac{p r (y ∣ x)}{p_{θ} (y ∣ x)} \\ \propto - \sum_{y = 0}^{k} p r (y ∣ x) \log p_{θ} (y ∣ x) （ y 为 x 的真实标签） \\ \propto - \sum_{y = 0}^{k} y_{i} \log p_{θ} (y_{i} ∣ x) \end{aligned}

负对数似然损失函数

L (y, f (x, θ)) = - \sum_{c = 1}^{C} y_{c} \log f_{c} (x, θ)

关系（GPT）

text

我们想让预测分布接近真实分布
↓
使用 KL 散度衡量分布差异
↓
去掉与参数无关项
↓
得到交叉熵
↓
one-hot 情况下变成负对数似然 loss。

数学基础 ​

线性代数 ​

向量 ​

向量范数 ​

矩阵 ​

Hadamard 积 ​

矩阵范数 ​

微积分 ​

数学优化 ​

概率论 ​

信息论 ​

熵（Entropy） ​

交叉熵（Cross Entropy） ​

KL 散度（K-L Divergence） ​

交叉熵损失 ​