EM算法总结

在概率模型中,最常用的模型参数估计方法应该就是最大似然法
EM算法本质上也是最大似然,它是针对模型中存在隐变量的情况的最大似然

下面通过两个例子引入。

没有隐变量的硬币模型

假设有两个硬币,AB,这两个硬币具体材质未知,即抛硬币的结果是head的概率不一定是50%。

在这个实验中,我们每次拿其中一个硬币,抛10次,统计结果。

实验的目标是统计AB的head朝上的概率,即估计θ^Aθ^B

对每一枚硬币来说,使用极大似然法来估计它的参数:
假设硬币A正面朝上的次数是nhA,反面朝上的次数是:ntA

似然函数:L(θA)=(θA)nhA(1θA)ntA

对数似然函数:log;L(θA)=nhAlog(θA)+ntAlog(1θA)

θ^A=argmaxθA;log;L(θA)

对参数求偏导:log;L(θA)θA=nhAθAntA1θA

令上式为0,解得:θ^A=nhAnhA+ntA

θ^A=numberofheadsusingcoinAtotalnumberofflipsusingcoinA

有隐变量的硬币模型

这个问题是上一个问题的困难版,即给出一系列统计的实验,但不告诉你某组实验采用的是哪枚硬币,即某组实验采用哪枚硬币成了一个隐变量
这里引入EM算法的思路

  • 1.先随机给出模型参数的估计,以初始化模型参数。
  • 2.根据之前模型参数的估计,和观测数据,计算隐变量的分布
  • 3.根据隐变量的分布,求联合分布的对数关于隐变量分布的期望
  • 4.重新估计模型参数,这次最大化的不是似然函数,而是第3步求的期望

一般教科书会把EM算法分成两步:E步和M步,即求期望和最大化期望。

E步对应上面2,3;M对应4。

EM算法

输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ);
输出:模型参数θ

  • 1.选择参数的初始值θ(0),开始迭代;
  • 在第i+1次迭代:
    • 2.E步:Q(θ,θ(i))=zlog;P(Y,Z|θ)P(Z|Y,θ(i))
  • 3.M步:Q(i+1)=argmaxθ;Q(θ,θ(i))
  • 4.重复2,3直至收敛。

参考资料