第五章：Machine Learning Basics

Posted on 2017-05-09 Edited on 2024-11-10 In 《Deep Learning》读书笔记

5. Machine Learning Basics

机器学习定义：一个计算机程序，如果它能做到在任务T中的性能P随着经验E可以提高，那就可以称它是关于某类任务T和性能衡量P，从经验E中学习。

机器学习任务（$T$）类别：分类（classification）/缺失输入数据的分类（classification with missing
data）/回归（regression）/转录（transciption）/机器翻译（machine translation）/结构化输出（structured
output）/异常检测（anomaly detection）/合成和采样（synthesis and smapling）/缺失值填补（imputation
of missing data）/去噪（denoising）/密度估计（density estimation）

机器学习的性能（$P$）：$P$因为$T$的不同而不同。对于像分类/缺失输入数据的分类/转录，使用准确率（accuracy）来衡量性能；而对于密度估计，通常输出模型在一些样本上概率对数的平均值。

机器学习的经验（$E$）：根据经验的不同，分为监督学习和无监督学习。监督学习：学习$p(x)$；无监督学习：学习$p(y|x)$。通常来说，无监督学习通常指代从不需要人工标注数据中提取信息。

泛化（generalization）：在先前未观测到的输入上表现良好的能力被称为泛化。

欠拟合（underfitting）和过拟合（overfitting）：机器学习的性能取决于两点因素：1.使训练误差更小；2.使训练误差和测试误差的差距更小。分别对应欠拟合的改善和过拟合的改善。

模型的容量（capacity）：模型的容量是指其拟合各种函数的能力。

VC维（Vapnik-Chervonenkis dimension）：VC维用来度量二分类器的容量。假设存在$m$个不同的$x$点的训练集，分类器可以任意地标记该$m$个不同的$x$点，VC维即$m$的最大可能值。详细解释

奥卡姆剃刀（Occam’s razor）：在同样能够解释已知观测现象的假设中，我们应该挑选”最简单”的那一个。

没有免费的午餐定理（no free lunch theorem）：所有分类算法在分类没有见过的点的时候，他们的错误率的期望是一样的。这个定理告诉我们，必须要针对特定的任务去设计机器学习算法。

正则化（Regularization）：正则化是指我们针对减少泛化误差而不是训练误差，在一个机器学习算法上做的任何改动。
超参数（Hyperparameters）：超参数的值不能通过学习算法本身学习出来。

验证集（Validation Sets）：验证集用来调超参数。

统计学的一些基本概念：估计（Estimators）/偏差（Bias）/方差（Variance）

点估计（Point Estimation）：

试图为某些参数提供一个“最优”的预测。

将参数$θ$的点估计记为$\hat
θ$，令${x^{(1)}, . . . , x^{(m)}}$是$m$个独立同分布(i.i.d.)的数据点。点估计是这些数据的任意函数：$\hat
θ=g(x^{(1)}, . . . , x^{(m)})$

估计的偏差（Bias）：

估计的偏差被定义为:$bias(\hat θ_m) = E(\hat θ_m) - θ$，即，估计的期望和真实值的差。

如果$bias(\hat θ_m)=0$,那么估计量$θ_m$被称为是无偏估计。

估计的方差（Variance）：

就是一个方差$Var(\hat θ)$。

$Var(X) = E[(X - \mu)^2]$，其中$μ=E[X]$。

均方误差（mean squared error， MSE）：

$MSE = E[(\hat θ_m - θ)^2] = Bias(\hat θ_m)^2 + Var(\hat θ_m)$

最大似然估计（Maximum Likelihood Estimation, MLE）

参数θ的最大似然估计：

$$θ_{ML} = \underset{θ}{argmax};p_{model}(\mathbb{X};θ) =
\underset{θ}{argmax};\prod_{i=1}^mp_{model}(x^{(i)};θ)$$

其中$\mathbb{X}={x^{(1)}, … , x^{(m)}}$

似然函数：$p_{model}(\mathbb{X};θ)$是一族由$θ$确定在相同空间上的概率分布。可以看到，这里$θ$并不是一个随机变量，而仅仅是一个参数。

对数形式：

$$θ_{ML} = \underset{θ}{argmax}\sum_{i=1}^mlogp_{model}(x^{(i)};θ)$$

是一种点估计方法。

贝叶斯统计（Bayesian Statistics）

最大似然估计是频率学派的观点，认为参数θ是固定的，但是未知；贝叶斯统计观点认为，数据集是直接观察得到的，因此数据集不是随机的，但是参数θ是一个随机变量。

在观察到数据前,我们将$θ$的已知知识表示成先验概率分布(prior probability distribution)$p(θ)$。

$$p(θ|x^{(1)},x^{(2)},…,x^{(m)}) =
\frac{p(x^{(1)},x^{(2)},…,x^{(m)}|θ)p(θ)}{p(x^{(1)},x^{(2)},…,x^{(m)})}$$

最大后验(Maximum A Posteriori, MAP)估计

$$θ_{MAP}=\underset{θ}{argmax};p(θ∣x)=\underset{θ}{argmax};logp(x∣θ)+logp(θ)$$

我们可以认出上式右边的$logp(x|θ)$对应着标准的对数似然项，$logp(θ)$对应着先验分布。

正如全贝叶斯推断,MAP贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。该附加信息有助于减少最大后验点估计的方差，然而,这个优点的代价是增加了偏差。
依然是一种点估计方法。

机器学习算法的常见组成部分：一个数据集（dataset）+一个损失函数（cost function）+一个优化过程（optimization procedure）+一个模型（model）

维数灾难（the Curse of Dimensionality）：当数据的维数很高时，很多机器学习问题变得相当困难。这种现象被称为维数灾难。

流形（manifold）学习

流形指连接在一起的区域。数学上，它是指一组点，且每个点都有其邻域。给定一个任意的点，其流形局部看起来像是欧几里得空间。

日常生活中，我们将地球视为二维平面，但实际上它是三维空间中的球状流形。

流形学习算法通过一个假设来克服这个障碍，该假设认为$R_n$中大部分区域都是无效的输入，有意义的输入只分布在包含少量数据点的子集构成的一组流形中，而学习函数的输出中，有意义的变化都沿着流形的方向或仅发生在我们切换到另一流形时。

我们认为在人工智能的一些场景中，如涉及到处理图像、声音或者文本时，流形假设至少是近似对的。

关于流形学习有一个很好的中文ppt，可以作为参考材料。