Skip to content

机器学习基础

机器学习都学过,主要是过了一下监督学习,有很多需要算的东西可能需要注意一下

概念

Instance(实例),feature vector(特征向量),feature space(特征空间)

输入实例𝑥的特征向量:

x=(x(1),x(2),,x(i),,x(n))T
  • x(i)xi 不同,后者表示多个输入变量中的第 i
xi=(xi(1),xi(2),,xi(n))T
  • 训练集:
T={(x1,y1),(x2,y2),,(xN,yN)}
  • 输入变量和输出变量:
    • 分类问题、回归问题、标注问题

线性回归

推导

x=(1,x(1),x(2),,x(i),,x(n))Thθ(x)=θ0+θ1x(1)++θnx(n)=θTx=xTθJ(θ)=12Ni=1N(hθ(xi)yi)2=12(XθY)T(XθY)J(Θ)Θ=J(Θ)bbccΘ=12b2bbccΘ=bTIN×NX=(XΘY)TX=0((XΘY)TX)T=XT(XΘY)=0Θ=(XTX)1XTY

正规方程

线性回归最优解对应的解析公式

Θ=(XTX)1XTY

正则化

正则化一般形式:

minfF1Ni=1NL(yi,f(xi))+λJ(f)
  • 回归问题中:
L(w)=1Ni=1N(yif(xi;w))2+λ2w22L(w)=1Ni=1N(yif(xi;w))2+λw1

正则化与岭回归

XTX 不可逆,XTX+λI 可逆,带进去能得到

J(θ)=12(YXθ)T(YXθ)+λ2θTθ

正则化与交叉验证

  • 简单交叉验证(70%,30%)
  • S折交叉验证
  • 留一交叉验证(上一种的极端情况,每轮只留一个样本验证)

分类

二分类

单位跃阶函数

y={0,z<00.5,z=01,z>0
  • 缺点:不连续

替代函数——对数几率函数(logistic funtion

y=11+ez
  • 单调可微、任意阶可导

logistic 回归

NOTE

这个做过实验

π(x)=exp(wTx)1+exp(wTx)1π(x)=11+exp(wTx)L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=i=1N[yiwTxilog(1+exp(wTxi))]L(w)W=(yy)xT

发现这个式子和线性回归是一样的(只有 y^ 变了)

多项logistic回归

P(Y=K|x)=11+k=1K1exp(wkTx)

Q: 为什么只用算到 K - 1

A: 因为这里采用的是:“以一个类别作为基准类(reference class)” 的多项 logistic 回归写法, 最后一个类别的概率由:1k=1K1P(Y=k|x) 自动确定。

Softmax回归

exp(wkTx)1+k=1K1exp(wkTx)exp(wkTx)k=1Kexp(wkTx)

(后面是一些推理和求导,和上面二分类基本上一样的逻辑)

常用的定理

没有免费午餐定理(No Free Lunch Theorem,NFL)

对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的 搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定 在另外一些问题上比纯随机搜索算法更差。

丑小鸭定理(Ugly Duckling Theorem)

丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大.

GPT:

丑小鸭定理实际上是在说明:

没有“先验偏好”,就不存在有效学习。

这也是:

  • 特征工程
  • 模型结构
  • 正则化
  • inductive bias

为什么重要的理论原因之一。

奥卡姆剃刀原理(Occam's Razor)

如无必要,勿增实体

归纳偏置(Inductive Bias)

很多学习算法经常会对学习的问题做一些假设,这些假设就称为归纳偏置

在贝叶斯学习中成为先验(Prior)