知行合一

决策树的特征选择标准

决策树是一种基于特征划分数据的监督学习模型,常用于分类与回归。本文介绍决策树中特征选择的核心标准,包括信息熵、信息增益、信息增益比与基尼指数。

信息熵(Entropy)


设$Y$是取有限个值的离散随机变量,其概率分布为:

$$ P(Y = y_i) = p_i,\quad i = 1, 2, 3, ..., n $$

则随机变量$Y$的熵的定义为:

$$ H(Y) = -\sum_{i=1}^n p_i\log_bp_i $$

根据对数的底$b$的不同,熵的单位不同。当$b$为2时,单位为比特(bit),当$b$为e时,单位为纳特(nat)。

熵被认为是不确定性的度量。很显然当系统内只有一个事件且该事件必定发生时,熵取最小值为0。当系统内各事件发生概率相同时,熵取最大值$\log_bn$,此时系统内的不确定性最高。特别的,当$p_i$为0时,$p_i \log_bp_i$为0。

条件熵(Conditional Entropy)


条件熵表示基于某条件下的信息熵。定义为:

$$ H(Y|X) = \sum_{i=1}^np_iH(Y|X = x_i) $$

这里的$p_i=P(X = x_i),\quad i = 1,2,3,...,n$。$H(Y|X = x_i)$为$X$取$x_i$时,$Y$的信息熵。

信息增益(Information Gain, IG)


信息增益等于信息熵减去条件熵。即:

$$ IG(Y, X) = H(Y) - H(Y|X) $$

可以理解为在知道变量$X$后,$Y$的不确定性减少了多少。

决策树的ID3算法中采用信息增益作为特征选择标准。

信息增益比(Information Gain Ratio)


信息增益的缺点在于会偏向取值数目较多的特征,而信息增益比则可以克服该缺点:

$$ IG_{Ratio}(Y, X) = {IG(Y, X) \over H(X)} $$

即用信息增益除以特征的信息熵(在这里一般把分母部分称作特征$X$的固有值,但是计算方式和信息熵是一样的)。

决策树的C4.5算法中采用信息增益比作为特征选择标准。

基尼指数(Gini Index)


基尼指数描述的是随机抽取两个样本,其类别不一致的概率(不纯的度量),即:

$$ Gini(Y) = \sum_{i=1}^n p_i(1-p_i) = 1 - \sum_ip_i^2 $$

从而可以知道:

$$ Gini(Y|X) = \sum_{i=1}^np_iGini(Y|X = x_i) $$

这里,$p_i=P(X = x_i),\quad i = 1,2,3,...,n$。

决策树的CART算法中的分类树采用基尼指数作为特征选择标准。特别的,CART算法生成的是二叉树,故上面的公式中的$n$为2。