1. 信息增益率

ID3算法有以下几个缺点:

1个属性取值越多,则此属性的信息增益率越大,越有可能被ID3选为当前分类属性。然而取值较多的属性并不一定最优。(例如一个属性的每个子节点都只有1个样本,此时信息增益率达到最大,但是用这样的属性却没有任何意义)
ID3只能处理离散型属性
可以处理缺失数据
可以对树进行剪枝

针对ID3算法的不足,Quinlan又提出了C4.5，C4.5算法采用信息增益率来取代信息增益作为当前最优决策属性的度量标准。

仍然选择weka中天气的数据集为例子:

outlook	temperature	humidity	windy	play
sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
overcast	hot	high	FALSE	yes
rainy	mild	high	FALSE	yes
rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no
overcast	cool	normal	TRUE	yes
sunny	mild	high	FALSE	no
sunny	cool	normal	FALSE	yes
rainy	mild	normal	FALSE	yes
sunny	mild	normal	TRUE	yes
overcast	mild	high	TRUE	yes
overcast	hot	normal	FALSE	yes
rainy	mild	high	TRUE	no

1.1 计算属性outlook的信息增益:

S p l i t I n f o o u t l o o k ( S ) = − 5 14 × l o g 2 5 14 − 4 14 × l o g 2 4 14 − 5 14 × l o g 2 5 14 = 1.577
同理计算其他属性的 S p l i t I n f o

2. C4.5处理连续型属性

对于连续型属性,C4.5先把它当转换成离散型属性再进行处理。本质上属性取值连续,但对于有限的采样数据它是离散的。例如某连续型属性有N个不同取值,则有N-1种离散化的方法: <=

对于离散型属性只需计算1次信息增益率,但连续型属性却需要计算N-1次。为了减少计算量,可对连续属性先进行排序,在只有label发生变化的地方才需要切开。比如:
这里写图片描述

原本需要计算13种情况,现在仅需计算7种。
+ 利用信息增益率来选择连续值属性的分界点存在的问题
由于C4.5对于连续值属性,每次选取一个分裂点进行分裂,即二分裂。此时

I G R ( a t t r ) = I G ( a t t r ) S p l i t I n f o ( a t t r )
假设分裂结果为 I G R 就越小。故而等分分界点被抑制。此时子集样本个数能够影响分界点,显然不合理。因此在决定分界点时，还是采用了信息增益这个指标，而在选择具体属性的时候才选择信息增益率这个指标。(注意选择分裂点和选择具体属性的区别)

对于离散型属性,C4.5一次进行分裂后，后续不再使用该属性。但是对于连续型属性，由于进行的是二分裂，故下一次分裂可能还会继续用到该属性。例如:
这里写图片描述
连续属性attr1会被用到多次。

3. C4.5处理缺失数据

3.1 缺失属性的增益值和增益率求解

3.1.1 离散型属性

仍然以下表为例说明:

Day	Outlook	Temperature	Humidity	Wind	play
D1	Sunny	Hot	High	Weak	No
D2	?	Hot	High	Strong	No
D3	?	?	High	?	Yes
D4	Rain	Mild	High	Weak	Yes
D5	Rain	Cool	?	Weak	Yes
D6	Rain	Cool	Normal	Strong	No
D7	Overcast	Cool	Normal	Strong	Yes
D8	?	Mild	High	?	No
D9	?	Cool	Normal	Weak	Yes
D10	?	?	Normal	?	Yes
D11	?	Mild	Normal	?	Yes
D12	Overcast	Mild	?	Strong	Yes
D13	Overcast	Hot	?	Weak	Yes
D14	Rain	Mild	High	Strong	No

o u t l o o k 为例,共有14个样本，其中6个样本

1. 信息增益率

1.1 计算属性outlook的信息增益:

2. C4.5处理连续型属性

3. C4.5处理缺失数据

3.1 缺失属性的增益值和增益率求解

3.1.1 离散型属性

3.1.1 连续型属性

3.2 将含有缺失值的样本分配给子节点

3.3 预测含有缺失属性的样本的label

4. C4.5的剪枝处理

4.1 早期的pessimistic pruning方法