Skip to content

数学基础

线性代数

标量,向量运算 ...

向量

向量范数

满足以下条件的函数 f:RnR,domf=Rn 称为范数:

  • 非负:xRn,f(x)0
  • 正定:f(x)=0x=0
  • 齐次:xRn,tR,f(tx)=|t|f(x)
  • 三角不等式:x,yRn,f(x+y)f(x)+f(y)

向量 xRn,则 Rn 上的 1-范数:

x1=|x1|++|xn|

-范数:

x=max{|x1|,,|xn|}

更一般地:

xp=(|x1|p++|xn|p)1p

矩阵

Hadamard 积

点积

[AB]mn=amnbmn

矩阵范数

算子(诱导)范数

设:

c=Ab

则:

cAb

算子范数定义:

A=maxx0Axx=maxx=1Ax

一般的 p-范数诱导矩阵范数:

Ap=maxx0Axpxp

常见矩阵范数

  • 1-范数(最大绝对列和)
A1=max1jni=1m|aij|
  • 2-范数(谱范数)
A2=λmax(ATA)

等价于 A 的最大奇异值。

  • -范数(最大绝对行和)
A=max1imj=1n|aij|

Frobenius 范数

AF=i,jAij2

微积分

  • 次导数:不可求导情况下的导数(左右导数之间的所有值)
输出 \ 输入标量 x(1,)向量 x(n,1)矩阵 X(n,k)
标量 y(1,)yx(1,)yx(1,n)yX(k,n)
向量 y(m,1)yx(m,1)yx(m,n)yX(m,k,n)
矩阵 Y(m,l)Yx(m,l)Yx(m,l,n)YX(m,l,k,n)

数学优化

(最优化都学过)

概率论

(概率论都学过)

正态分布

p(x)=12πσ2exp((xμ)22σ2)

信息论

熵(Entropy)

自信息(Self Information)

I(x)=log(p(x))

H(X)=EX[I(x)]=Ex[logp(x)]=xXp(x)logp(x)

熵是理论最优平均编码长度,这种编码方式称为熵编码(Entropy Encoding)。

交叉熵(Cross Entropy)

交叉熵是按照概率分布 q 的最优编码对真实分布为 p 的信息进行编码的长度:

H(p,q)=Ep[logq(x)]=xp(x)logq(x)

KL 散度(K-L Divergence)

KL 散度是用概率分布 q 来近似 p 时所造成的信息损失量:

DKL(p,q)=H(p,q)H(p)=xp(x)logp(x)q(x)

连续形式:

p(x)logp(x)q(x)dx

交叉熵损失

y=1Cpr(yx)logpθ(yx)

ce_loss

真实概率 pr(yx) 与预测概率的负对数 logpθ(yx)

DKL(pr(yx)pθ(yx))=pr(yx)logpr(yx)pθ(yx)dy=y=0kpr(yx)logpr(yx)pθ(yx)y=0kpr(yx)logpθ(yx)y 为 x 的真实标签)y=0kyilogpθ(yix)

负对数似然损失函数

L(y,f(x,θ))=c=1Cyclogfc(x,θ)

关系(GPT)

text
我们想让预测分布接近真实分布

使用 KL 散度衡量分布差异

去掉与参数无关项

得到交叉熵

one-hot 情况下变成负对数似然 loss。