交叉熵
Ent(D)=−k=1∑∣Y∣pklog2pk
Ent(D)={0log2∣Y∣p1=1p1=…=p∣Y∣=∣Y∣1
Ent(D) 越小,划分的越清晰,纯度越高
信息增益
相当于
Δ,描述了划分和不划分之间的变化
划分之前,信息熵为 Ent(D),划分后,信息熵为 v=1∑V∣D∣∣Dv∣Ent(Dv)
信息增益越大,纯度提升越大
每个分类占了 Dv 的权重,因此要对每个交叉熵乘一个 ∣D∣∣Dv∣
graph TB
D((D))-->D1((D1))
D-->D2((D2))
D-->Dv((Dv))
%%{init: {'theme':'dark'}}%%
graph TB
D((D))-->D1((D1))
D-->D2((D2))
D-->Dv((Dv))
Gain(A,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)
信息增益越大越好
例
Ent(D)=−k=1∑∣Y∣pklog2pk=−(178log2178+179log2179)=0.998
Ent′(D)=−176(63log263+63log263)−176(64log264+62log262)−175(51log251+54log254)
增益率
剪枝处理
- 预剪枝(生成过程中评估和剪枝)
- 后剪枝(用所有数据生成,尽管可能过拟合,之后再剪枝)
凹陷 (1, 2, 3), 14
稍凹 (6, 7), 15, 17
平坦 10, 16
连续值在决策树中的处理
- 离散化 - 门限 - 利用 max 找到门限
- 找哪个使得 Gain 最大
连续属性可以不断划分,离散值重复划分是无效的
缺失值处理
- 无缺失值 a 属性样本子集 D~⊆D
- 属性值为 av 样本子集 D~v
- 标签为 k 的样本子集 D~k