EM算法总结

Posted on 2016-12-11 Edited on 2024-11-10 In Machine Learning

在概率模型中，最常用的模型参数估计方法应该就是最大似然法。
EM算法本质上也是最大似然，它是针对模型中存在隐变量的情况的最大似然。

下面通过两个例子引入。

没有隐变量的硬币模型

假设有两个硬币，$A$和$B$，这两个硬币具体材质未知，即抛硬币的结果是head的概率不一定是50%。

在这个实验中，我们每次拿其中一个硬币，抛10次，统计结果。

实验的目标是统计$A$和$B$的head朝上的概率，即估计$\hat \theta_A$和$\hat \theta_B$。

对每一枚硬币来说，使用极大似然法来估计它的参数：
假设硬币$A$正面朝上的次数是$n^A_h$，反面朝上的次数是：$n^A_t$。

似然函数：$L(\theta_A) =(\theta_A)^{n^A_h}(1-\theta_A)^{n^A_t}$。

对数似然函数：$log;L(\theta_A) = n^A_h\cdot log(\theta_A)+n^A_t\cdot log(1-\theta_A)$。

$\hat \theta_A = \underset{\theta_A}{argmax};log;L(\theta_A)$ 。

对参数求偏导：$\frac{\partial log; L(\theta_A)}{\partial \theta_A}=\frac{n^A_h}{\theta_A}-\frac{n^A_t}{1-\theta_A}$。

令上式为$0$，解得：$\hat \theta_A = \frac{n^A_h}{n^A_h+n^A_t}$。

即$\hat \theta_A = \frac{number\; of\; heads\; using\; coin\; A}{total\; number\; of\; flips\; using\; coin\; A}$。

这个问题是上一个问题的困难版，即给出一系列统计的实验，但不告诉你某组实验采用的是哪枚硬币，即某组实验采用哪枚硬币成了一个隐变量。
这里引入EM算法的思路：

一般教科书会把EM算法分成两步：E步和M步，即求期望和最大化期望。

E步对应上面2,3；M对应4。

输入：观测变量数据$Y$，隐变量数据$Z$，联合分布$P(Y,Z|\theta)$，条件分布$P(Z|Y,\theta)$;
输出：模型参数$\theta$。

1.选择参数的初始值$\theta^{(0)}$，开始迭代；
在第$i+1$次迭代:
- 2.E步：$Q(\theta,\theta^{(i)}) = \sum_zlog;P(Y,Z|\theta)P(Z|Y,\theta^{(i)})$
3.M步：$Q^{(i+1)} = \underset{\theta}{argmax};Q(\theta,\theta^{(i)})$
4.重复2，3直至收敛。