【机器学习】这份分类决策树算法介绍请收好！-白红宇

【机器学习】这份分类决策树算法介绍请收好！

阅读量：2019 次

发布时间：2019-04-28

本文共 5197 字，大约阅读时间需要 17 分钟。

摘要： 决策树在机器学习算法中是一个相对简单的算法，如何不能进行适当的剪枝就容易造成模型的过拟合。决策树算法也是当前很多集成学习算法的基础，集成算法的效果往往比单独使用决策树算法效果更好。

关键词： 决策树，集成学习

1 初识决策树

决策树就是一个根据原始数据的特征的重要性逐渐确定数据的类别的一种算法。之所以被称为决策树，是因为训练的模型根据训练的数据确定特征的重要性，然后对测试数据分析时会根据不同数据的各个特征值一步一步地分析到分类，就如同一棵树从树根到树叶的路径一样，可参考下图：

决策树传统上来讲主要是用来做分类的，但是也不排除可以使用该算法进行回归分析，之前的文章也有过介绍如：。本文主要介绍使用决策树进行分类的原理。

刚才说到，决策树是根据数据的不同重要的特征进行一步一步地划分数据的，那么使用什么指标来确定特征的重要性呢？当前主要使用的衡量指标是信息熵和基尼(Gini)指数。

文献1中指出，信息熵是衡量信息不确定性的指标，不确定性是一个事件出现不同结果的可能性。对应的计算公式如下：

H\left( Y \right) =-\sum_{i=1}^n{P\left( y_i \right) \log _2P\left( y_i \right)}

其中，

y_i

是随机变量

Y

的一个可能事件，

P(y_i)

则代表该事件发生的概率。以常见的例掷硬币为例，两枚骰子正反面出现的概率如下：

硬币	概率
正面	0.5
反面	0.5

对于该硬币掷出去后，信息熵如下：

H\left( Y \right) =-0.5\times \log _20.5-0.5\times \log _20.5=1

硬币	概率
正面	0.99
反面	0.01

同理，对于该硬币掷出去后，信息熵如下：

H\left( Y \right) =-0.99\times \log _2 0.99- 0.0.1\times \log _2 0.01=0.08

从上面的例子我们可以看出，第二枚硬币正面的概率为0.99，我们基本可以认为硬币掷出去后是正面，所有信息熵比较小，而对于第一枚硬币，由于正反面概率相同，这时掷出硬币后就比较难确定正反面了，信息熵也就比较大了。

在决策树确定特征的重要性时除了信息熵以外，还会用到条件熵。在给定随机变量 $X$ 的条件下，随机变量 $Y$ 的不确定性。公式如下：

H\left( Y|X \right) =-\sum_{i=1}^n{P\left( y_i|x_i \right) \log _2\left( y_i|x_i \right)}

其中

x_i

和

y_i

分别是随机变量

X

、

Y

的一个事件。

信息增益的定义就是：事件的熵值减去对应的条件熵，代表了在一个条件下，信息不确定性减少的程度。通过下面的公式就可以了解。

I\left( X,Y \right) =H\left( Y \right) -H\left( Y|X \right)

当信息增益越大，那么在这个条件下知晓后，事件就比较容易确定了。计算案例可以参考如下（知道某个条件后分成将原始数据分成了两堆）：

有以下数据，该数据是在不同天气情况下客户打高尔夫球的记录。每条数据包含Outlook、Temp、Humanity、Wind四个特征以及对应的数据标签是否Play Golf。现在我们就可以通过结合天气信息较少不确定性来判断在一些情况下客户是否会打Golf。而每个特征都有多个取值。

现在我们需要明确研究对象，即是否打Golf。

第一步就是：计算Play Golf的熵，可以根据下表进行计算：

首先是构建根节点，先看Play Golf 的熵：在14 条历史数据中，打球的概率为0.64，不打球的

概率为0.36，熵值为0.94。

第二步就是：寻找晴朗程度、湿度、风力和温度四种状况与是否打高尔夫相关性最高的一个特征，进行决策树构建。

以Outlook为条件计算的条件熵和信息增益如下：

那么使用Outlook的条件熵：
$0.36\times 0.971+0.29\times 0+0.36\times 0.971=0.69$
信息增益：0.940-0.69=0.25 (最佳分割特征)