概览
决策树是一种分类和回归的基本模型,可从三个角度来理解它,即:
- 一棵树。
- if-then规则的集合,该集合是决策树上的所有从根节点到叶节点的路径的集合。
- 定义在特征空间与类空间上的条件概率分布,决策树实际上是将特征空间划分成了互不相交的单元,每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中,哪个类别有较高的条件概率,就把该单元中的实例强行划分为该类别。
主要的优点有两个:
- 模型具有可解释性,容易向业务部门人员描述。
- 分类速度快。
基础知识
熵:$H(x) = -\sum_{i=1}^np_ilog(p_i)$
条件熵:$H(Y|X) = H(X,Y)-H(X) = \sum_XP(X)H(Y|X) = -\sum_{X,Y}logP(Y|X)$
基尼系数(Gini index):$Gini(p) = \sum_{k=1}^Kp_k(1-p_k) = 1-\sum_{k=1}^Kp_k^2$,基尼指数反应了从数据集中随机抽取两个样本,其类标不一致的概率。
算法
决策树的损失函数通常是正则化的极大似然函数,学习的策略是以损失函数为目标函数的最小化。
所以决策树的本质和其他机器学习模型是一致的,有一个损失函数,然后去优化这个函数;然而,区别就在于如何优化。
决策树采用启发式算法来近似求解最优化问题,得到的是次最优的结果。
该启发式算法可分为三步:
- 特征选择
- 模型生成
- 决策树的剪枝
决策树学习算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割。
选择最优特征要根据特征的分类能力,特征分类能力的衡量通常采用信息增益或信息增益比。
决策树学习常用的算法主要有以下三种:ID3算法
,C4.5算法
,CART算法
。
ID3算法
ID3使用信息增益作为特征选取的依据:
$G(D, A) = H(D) - H(D|A)$,即经验熵和经验条件熵的差值,其中$D$是训练数据集,$A$是特征。
$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$,其中,$|C_k|$是属于类$C_k$的个数,$|D|$是所有样本的个数。
$H(D|A)=\sum_{i=1}^np_{a_i}H(D|a_i)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$,其中,特征$A$有$n$个不同的取值${a_1,
a_2, …, a_n}$,根据特征$A$的取值将$D$划分为$n$个子集$D_1, D_2, …, D_n$,$|D_i|$是$D_i$的样本个数,$D_{ik}$是$D_i$中属于类$C_k$的样本集合。
ID3算法流程
- 计算$A$中各个特征对$D$的信息增益,选择信息增益最大的特征:$A_g$。
- 若$A_g$的信息增益小于阈值$\epsilon$,则置为单结点树,并将$D$中实例数最多的类$C_k$作为该结点的类标记。
- 否则,对$A_g$的每一可能值:$a_i$,依据$A_g = a_i$将$D$分割为若干非空子集$D_i$,同样,将$D_i$中实例数最多的类作为类标,构建子结点。
- 对第$i$个子结点,以$D_i$为训练集,以$A-{A_g}$为特征集,递归地调用上面1-3步。
C4.5算法
C4.5使用信息增益比,作为特征选取的依据:
信息增益比:$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$,即信息增益除以训练集$D$关于特征$A$的熵,$H_A(D) = -\sum_{i=1}^n\frac{D_i}{D}log_2\frac{D_i}{D}$,$n$是特征$A$取值的个数。
为什么使用信息增益比?先回顾信息增益:$H(D|A)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$,对于极限情况,如果某个特征$A$可以将数据集$D$完全分隔开,且每个子集的个数都是1,那么$log\frac{|D_{ik}|}{|D_i|} = log1 = 0$,于是信息增益取得最大。但这样的特征并不是最好的。
也就是说,使用信息增益作为特征选择的标准时,容易偏向于那些取值比较多的特征,导致训练出来的树非常的宽然而深度不深的树,非常容易导致过拟合。
而采用信息增益比则有效地抑制了这个缺点:取值多的特征,以它作为根节点的单节点树的熵很大,即$H_A(D)$较大,导致信息增益比减小,在特征选择上会更加合理。
C4.5具体算法类似于ID3算法。
剪枝
为了防止出现过拟合现象,要把过于复杂的树进行剪枝,将其简化。
决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或者代价函数(cost function)来实现。
决策树的生成学习局部的模型,而决策树剪枝学习整体的模型。
损失函数:$C_α(T) = C(T)+α|T|=\sum_{t=1}^{|T|}N_tH_t(T)+α|T|$
其中,$|T|$是树$T$的叶节点个数,$t$是其中一个结点,$N_t$是这个结点的样本个数,$H_t(T)$是这个结点的经验熵。
$C(T)$表示模型对训练数据的预测误差, $α|T|$则是正则化项。
使用叶子结点的熵作为的模型的评价是因为:
如果分到该叶节点的所有样本都属于同一类,那么分类效果最好,熵最小。
一般的剪枝算法:
- 计算每个结点的经验熵。
- 递归地从叶节点向上回缩:设一叶结点回缩到父结点之前和之后,树分别是$T_B$和$T_A$,其对应的损失函数值分别是$C_α(T_B)$与$C_α(T_A)$,如果$C_α(T_A)≤C_α(T_B)$,则剪枝,即将父节点变成新的叶结点。
CART算法
CART(Classification And Regression Tree)本身是一种分类回归树,即,它既可以用来解决分类问题,也可以用来解决回归问题。
CART树是一棵二叉树,内部结点特征的取值是“是”和“否”,左分支是取值为“是”的分支,右分支是取值是“否”的分支。
因此,注意到CART的生成过程和前面的ID3和C4.5略有不同,分回归树和分类树两种情况分析。
回归CART生成
回归树的生成通常选择平方误差作为评判标准。
假设已将输入空间划分为$M$个单元$R_1,R_2,…,R_M$,并且在每个单元$R_m$上有一个固定的输出值$c_m$,回归树可以表示为:$f(x) = \sum_{m=1}^Mc_mI(x \in R_m)$。
在单元$R_m$上的$c_m$的最优值$\hat c_m$是$\hat c_m=ave(y_i|x_i\in R_m)$(根据最小化该单元的平方误差可以得到这个结论)。
至于空间的划分,先选择输入的第$j$个维度的特征$x^{(j)}$和对应的取值$s$,作为切分变量(splitting variable)和切分点(splitting point),并定义两个区域:$R_1(j,s)={x|x^{(j)}≤s}$和$R_2(j,s)={x|x^{(j)}>s}$。再寻找最优的切分变量和切分点:$\arg\underset{j,s}{min}[\underset{c_1}{min}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\underset{c_2}{min}\sum_{x_i\in R_1(j,s)}(y_i-c_2)^2]$。
回归CART生成:
- 1.对于数的所有维度,遍历$j$;对固定的$j$扫描切分点$s$:
- 2.寻找最优的切分变量和切分点:$\arg\underset{j,s}{min}[\underset{c_1}{min}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\underset{c_2}{min}\sum_{x_i\in R_1(j,s)}(y_i-c_2)^2]$。
- 3.用选定的对$(j,s)$划分区域并决定相应的输出值:$R_1(j,s)={x|x^{(j)}≤s}$和$R_2(j,s)={x|x^{(j)}>s}$。$\hat c_m=ave(y_i|x_i\in R_m);;;x\in R_m,;m=1,2$。
- 4.重复1,2,3直到满足停止条件。
- 5.生成决策树:$f(x) = \sum_{m=1}^Mc_mI(x \in R_m)$。
分类CART生成
基尼系数
CART使用基尼系数(Gini index)最小化准则,进行特征选择。
基尼系数(Gini index):
$Gini(D) = 1-\sum_{k=1}^{K}(\frac{|C_k|}{|D|})^2$
$Gini(D,A) = \sum_i\frac{D_i}{D}Gini(D_i)$
基尼指数$Gini(D,A)$表示经$A=a$分割后集合$D$的不纯度(impurity),基尼指数越大,纯度越低,和熵类似。
分类CART生成:
- 1.对现有特征A的每一个特征,每一个可能的取值a,根据样本点对$A=a$的测试是“是”还是“否”,将$D$分割成$D_1$和$D_2$两部分,计算$A=a$时的基尼指数。
- 2.选择基尼指数最小的特征机器对应的切分点作为最优特征和最优切分点。
- 3.递归调用,直到满足停止条件。
停止条件:
- 结点中样本个数小于预定阈值;
- 样本集的基尼指数小于预定阈值(基本属于同一类);
- 没有更多特征。
CART剪枝
相比一般剪枝算法,CART剪枝算法的优势在于,不用提前确定$α$值,而是在剪枝的同时找到最优的α值。
对于固定的$α$值,一定存在让$C_α(T)$最小的唯一的子树,记为$T_α$。
对于某个结点$t$,单结点树的损失函数是:$C_α(t) = C(t) + α$,而以$t$为根的子树$T_t$的损失函数是:$C_α(T_t) = C(T_t) + α|T_t|$。
当$α$充分小的时候,有$C_α(T_t) < C_α(t)$;
当$α$增大到某一$α$时有:$C_α(T_t) = C_α(t)$。
即,只要$α = \frac{ C(t)-C(T_t)}{|T_t|-1}$,就可以保证$T_t$和$t$有相同的损失函数,也就代表着可以对$T_t$剪枝。
因此,对于每个内部结点,计算$g(t) = \frac{C(t)-C(T_t)}{|T_t|-1}$,代表剪枝后误差增加率,或者用我自己的话理解就是代表$α$最少要达到多少时,结点$t$是可剪的。
将最小的$g(t)$设为$α_1$,剪枝得$T_1$,不断地重复此步骤,可以增加$α$,获得一系列$T_0, T_1, …, T_n$。
通过交叉验证,从剪枝得到的子树序列$T_0, T_1, …, T_n$中选取最优子树$T_α$。
CART剪枝算法:
- 输入:生成的决策树$T_0$;
- 输出:最有决策树$T_α$;
- 1.$k=0,T=T_0$;
- 2.$α=+∞$;
- 3.自下而上地对各内部结点$t$计算$C(T_t),|T_t|$以及$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$。
- 4.从小到大遍历$α=g(t)$剪枝得到的子树序列$T_0, T_1, …, T_n$。
- 5.交叉验证法在子树序列$T_0, T_1, …, T_n$中选取最优子树$T_α$。
算法总结
ID3算法/C4.5算法/CART算法。
ID3算法和C4.5算法用于生成分类树,区别主要在于选取特征的依据,前者是信息增益,后者是信息增益比。
CART算法可以生成分类树和回归树,分类树使用基尼指数选取特征,并且不用提前确定$α$值,而是在剪枝的同时找到最优的$α$值。
决策树实践
使用sklearn的决策树实现来看看实践中如何使用决策树模型,sklearn中的决策树模型:DecisionTreeClassifier。
1 | class |
重要参数:
criterion
: “gini” for the Gini
impurity and “entropy” for the information gain.max_depth
: 树的最大深度。min_impurity_decrease
: 最小的基尼指数下降。
下面代码摘自这里:
1 | import numpy as np |
1 | 正确率是95.56% |
比较不同深度对预测准确率的影响:
1 | from matplotlib import pyplot as plt |
1 | 正确率是60.00% |
决策树的可解释性
本文一开始提到决策树的一个优点是其可解释性。
接下来通过一些代码来演示其可解释性,代码来自sklearn官网。
1.用graphviz可视化决策树:
1 | import graphviz |
1 | dot_data = tree.export_graphviz(model, out_file=None, |
2.手动输出决策树信息
sklearn中决策树模型的信息保存在xxx.tree_
中:
1 | Attributes |
1 | # The decision estimator has an attribute called tree_ which stores the entire |
1 | n_nodes: 13 |
注意到上面出现了-1和-2这些让人觉得奇怪的值,解释一下:
1 | TREE_LEAF = -1 |
1 | # 遍历树,获取每个结点的深度和每个结点是否是叶结点 |
1 | The binary tree structure has 13 nodes and has the following tree structure: |
1 | # First let's retrieve the decision path of each sample. The decision_path |
1 | Rules used to predict sample 0: |