机器学习基础

机器学习都学过，主要是过了一下监督学习，有很多需要算的东西可能需要注意一下

概念

Instance（实例），feature vector（特征向量），feature space（特征空间）

输入实例𝑥的特征向量：

x = {(x^{(1)}, x^{(2)}, \dots, x^{(i)}, \dots, x^{(n)})}^{T}

$x^{(i)}$ 与 $x_{i}$ 不同，后者表示多个输入变量中的第 $i$ 个

x_{i} = {(x_{i}^{(1)}, x_{i}^{(2)}, \dots, x_{i}^{(n)})}^{T}

训练集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}

输入变量和输出变量：
- 分类问题、回归问题、标注问题

线性回归

推导

x = {(1, x^{(1)}, x^{(2)}, \dots, x^{(i)}, \dots, x^{(n)})}^{T}

h_{θ} (x) = θ_{0} + θ_{1} x^{(1)} + \dots + θ_{n} x^{(n)} = θ^{T} x = x^{T} θ

J (θ) = \frac{1}{2 N} \sum_{i = 1}^{N} {(h_{θ} (x_{i}) - y_{i})}^{2} = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)

\begin{aligned} \frac{\partial J (Θ)}{\partial Θ} & = \frac{\partial J (Θ)}{\partial b} \cdot \frac{\partial b}{\partial c} \cdot \frac{\partial c}{\partial Θ} \\ = \frac{1}{2} \cdot \frac{\partial b^{2}}{\partial b} \cdot \frac{\partial b}{\partial c} \cdot \frac{\partial c}{\partial Θ} \\ = b^{T} I_{N \times N} X \\ = (X Θ - Y)^{T} X \\ = 0 \end{aligned}

{((X Θ - Y)^{T} X)}^{T} = X^{T} (X Θ - Y) = 0

Θ = (X^{T} X)^{- 1} X^{T} Y

正规方程

线性回归最优解对应的解析公式

Θ = (X^{T} X)^{- 1} X^{T} Y

正则化

正则化一般形式：

min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

回归问题中：

L (w) = \frac{1}{N} \sum_{i = 1}^{N} {(y_{i} - f (x_{i}; w))}^{2} + \frac{λ}{2} ∥ w ∥_{2}^{2}

L (w) = \frac{1}{N} \sum_{i = 1}^{N} {(y_{i} - f (x_{i}; w))}^{2} + λ ∥ w ∥_{1}

正则化与岭回归

$X^{T} X$ 不可逆， $X^{T} X + λ I$ 可逆，带进去能得到

J (θ) = \frac{1}{2} (Y - X θ)^{T} (Y - X θ) + \frac{λ}{2} θ^{T} θ

正则化与交叉验证

简单交叉验证（70%，30%）
S折交叉验证
留一交叉验证（上一种的极端情况，每轮只留一个样本验证）

分类

二分类

单位跃阶函数

y = {\begin{cases} 0, & z < 0 \\ 0.5, & z = 0 \\ 1, & z > 0 \end{cases}

缺点：不连续

替代函数——对数几率函数（logistic funtion

y = \frac{1}{1 + e^{- z}}

单调可微、任意阶可导

logistic 回归

NOTE

这个做过实验

π (x) = \frac{\exp (w^{T} x)}{1 + \exp (w^{T} x)}

1 - π (x) = \frac{1}{1 + \exp (w^{T} x)}

\begin{aligned} L (w) & = - \sum_{i = 1}^{N} [y_{i} \log π (x_{i}) + (1 - y_{i}) \log (1 - π (x_{i}))] \\ = - \sum_{i = 1}^{N} [y_{i} \log \frac{π (x_{i})}{1 - π (x_{i})} + \log (1 - π (x_{i}))] \\ = - \sum_{i = 1}^{N} [y_{i} w^{T} x_{i} - \log (1 + \exp (w^{T} x_{i}))] \end{aligned}

\frac{\partial L (w)}{\partial W} = - (y - y^{'}) x^{T}

发现这个式子和线性回归是一样的（只有 $\hat{y}$ 变了）

多项logistic回归

P (Y = K | x) = \frac{1}{1 + \sum_{k = 1}^{K - 1} \exp (w_{k}^{T} x)}

Q: 为什么只用算到 K - 1
A: 因为这里采用的是：“以一个类别作为基准类（reference class）” 的多项 logistic 回归写法, 最后一个类别的概率由： $1 - \sum_{k = 1}^{K - 1} P (Y = k | x)$ 自动确定。

Softmax回归

\frac{\exp (w_{k}^{T} x)}{1 + \sum_{k = 1}^{K - 1} \exp (w_{k}^{T} x)}

\frac{\exp (w_{k}^{T} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{T} x)}

(后面是一些推理和求导，和上面二分类基本上一样的逻辑)

常用的定理

没有免费午餐定理（No Free Lunch Theorem，NFL）

对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效。如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差。

丑小鸭定理(Ugly Duckling Theorem)

丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大.

GPT：

丑小鸭定理实际上是在说明：

没有“先验偏好”，就不存在有效学习。

这也是：

特征工程
模型结构
正则化
inductive bias

为什么重要的理论原因之一。

奥卡姆剃刀原理(Occam's Razor)

如无必要，勿增实体

归纳偏置(Inductive Bias)

很多学习算法经常会对学习的问题做一些假设，这些假设就称为归纳偏置

在贝叶斯学习中成为先验(Prior)

机器学习基础 ​

概念 ​

线性回归 ​

推导 ​

正规方程 ​

正则化 ​

正则化与岭回归 ​

正则化与交叉验证 ​

分类 ​

二分类 ​

logistic 回归 ​

多项logistic回归 ​

Softmax回归 ​

常用的定理 ​

没有免费午餐定理（No Free Lunch Theorem，NFL） ​

丑小鸭定理(Ugly Duckling Theorem) ​

奥卡姆剃刀原理(Occam's Razor) ​

归纳偏置(Inductive Bias) ​