EM算法总结
在概率模型中,最常用的模型参数估计方法应该就是最大似然法。
EM算法本质上也是最大似然,它是针对模型中存在隐变量的情况的最大似然。
下面通过两个例子引入。
没有隐变量的硬币模型
假设有两个硬币,
在这个实验中,我们每次拿其中一个硬币,抛10次,统计结果。
实验的目标是统计
对每一枚硬币来说,使用极大似然法来估计它的参数:
假设硬币
似然函数:
对数似然函数:
对参数求偏导:
令上式为
即
有隐变量的硬币模型
这个问题是上一个问题的困难版,即给出一系列统计的实验,但不告诉你某组实验采用的是哪枚硬币,即某组实验采用哪枚硬币成了一个隐变量。
这里引入EM算法的思路:
- 1.先随机给出模型参数的估计,以初始化模型参数。
- 2.根据之前模型参数的估计,和观测数据,计算隐变量的分布。
- 3.根据隐变量的分布,求联合分布的对数关于隐变量分布的期望。
- 4.重新估计模型参数,这次最大化的不是似然函数,而是第3步求的期望。
一般教科书会把EM算法分成两步:E步和M步,即求期望和最大化期望。
E步对应上面2,3;M对应4。
EM算法
输入:观测变量数据
输出:模型参数
- 1.选择参数的初始值
,开始迭代; - 在第
次迭代:- 2.E步:
- 2.E步:
- 3.M步:
- 4.重复2,3直至收敛。