机器学习基础知识汇总

Posted on 2017-08-11 Edited on 2024-11-10 In Machine Learning

计算CNN输出尺寸

公式：输出尺寸=(输入尺寸-filter尺寸+2*padding）/stride+1

ROC曲线的x轴是伪阳率即$\frac{伪阳}{真阴+伪阳}$，y轴是真阳率即$\frac{真阳}{真阳+伪阴}$。

thresh-hold很高，导致全部预测阴，则真阳率为0，伪阳率为0，在坐标点$(0, 0)$；
thresh-hold很低，导致全部预测阳，则真阳率为1，伪阳率为1，在坐标点$(1, 1)$；
如果分类效果很好，则真阳率很高，伪阳率很低，接近坐标点$(0, 1)$。AUC即（Area Under Curve），即ROC曲线下的面积。如果分类效果越好，点越接近$(0, 1)$则AUC越大。

卡方检验可以用于两个变量间的相关性检测。

核心思想：卡方衡量了实际值与理论值的差异程度。

即，先假设两个变量之间是相互独立的，计算一组理论值$T$，设实际值是$A$，则$\mathfrak{X}^2=\frac{\sum(A-T)^2}{T}$

$H(p, q) = \sum_i p_i × log\frac{1}{q_i}$，可以衡量两个分布的相似度。

可以配合sigmoid，使其在误差下降的时候，梯度不会太小。

困惑度，如果语言模型生成的句子越不像是人说的，困惑度越大，语言模型越差。

在语言模型中，可以将一句话的似然函数，用来描述这句话的困惑度。似然函数越大，困惑度越小。

于是有：

$$PPL=\sqrt[n]{\frac{1}{P(w_1,w_2,…,w_N)}}$$

$$=e^{\frac{1}{N}ln\frac{1}{P(w_1,w_2,…,w_N)}}$$

$$=e^{-\frac{1}{N}\sum_{i=1}^NlnP(w_i)}$$

本身概念不难，最短编码。构造也很简单，每次把两个最小的拿出来，合并，再丢回去。

需要注意的是，编码的时候，所有的编码，不可以是其他的任何编码的前缀。

RNN有什么问题？LSTM为何可以解决这个问题？

RNN由于长期依赖的问题，经过许多阶段传播后，梯度倾向于消失（大部分情况）或**爆炸（很少，但对优化过程影响很大）。