决策树的特征选择标准

2021-04-28 · 机器学习

决策树是一种基于特征划分数据的监督学习模型，常用于分类与回归。本文介绍决策树中特征选择的核心标准，包括信息熵、信息增益、信息增益比与基尼指数。

信息熵(Entropy)

设$Y$是取有限个值的离散随机变量，其概率分布为：

$$ P(Y = y_i) = p_i,\quad i = 1, 2, 3, ..., n $$

则随机变量$Y$的熵的定义为：

$$ H(Y) = -\sum_{i=1}^n p_i\log_bp_i $$

根据对数的底$b$的不同，熵的单位不同。当$b$为2时，单位为比特(bit)，当$b$为e时，单位为纳特(nat)。

熵被认为是不确定性的度量。很显然当系统内只有一个事件且该事件必定发生时，熵取最小值为0。当系统内各事件发生概率相同时，熵取最大值$\log_bn$，此时系统内的不确定性最高。特别的，当$p_i$为0时，$p_i \log_bp_i$为0。

条件熵表示基于某条件下的信息熵。定义为：

$$ H(Y|X) = \sum_{i=1}^np_iH(Y|X = x_i) $$

这里的$p_i=P(X = x_i),\quad i = 1,2,3,...,n$。$H(Y|X = x_i)$为$X$取$x_i$时，$Y$的信息熵。

信息增益等于信息熵减去条件熵。即：

$$ IG(Y, X) = H(Y) - H(Y|X) $$

可以理解为在知道变量$X$后，$Y$的不确定性减少了多少。

决策树的ID3算法中采用信息增益作为特征选择标准。

信息增益的缺点在于会偏向取值数目较多的特征，而信息增益比则可以克服该缺点：

$$ IG_{Ratio}(Y, X) = {IG(Y, X) \over H(X)} $$

即用信息增益除以特征的信息熵（在这里一般把分母部分称作特征$X$的固有值，但是计算方式和信息熵是一样的）。

决策树的C4.5算法中采用信息增益比作为特征选择标准。

基尼指数描述的是随机抽取两个样本，其类别不一致的概率（不纯的度量），即：

$$ Gini(Y) = \sum_{i=1}^n p_i(1-p_i) = 1 - \sum_ip_i^2 $$

从而可以知道：

$$ Gini(Y|X) = \sum_{i=1}^np_iGini(Y|X = x_i) $$

这里，$p_i=P(X = x_i),\quad i = 1,2,3,...,n$。

决策树的CART算法中的分类树采用基尼指数作为特征选择标准。特别的，CART算法生成的是二叉树，故上面的公式中的$n$为2。