胡琦
V1
2023/02/23阅读:11主题:全栈蓝
我在Datawhale学“吃瓜”(三)
我在Datawhale学“吃瓜”(三)
❝光阴似箭,时光冉冉,又一个周期过去了。本次主要学习了第4章「决策树」的相关内容,谈到决策树不得不说说决策树算法的最初由来--澳洲的罗斯·昆兰在他19岁时提出了CLS,后来在选修课作业中引入信息增益准则形成了ID3算法。
❞
基本过程
决策树的生成是一个递归过程,导致递归返回的情形:
-
1.当前结点包含的样本全属于同一类别,无需划分; -
2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; -
3.当前结点包含的样本集合为空,不能划分.
书中决策树学习基本算法如图:

划分选择
信息熵(information entropy):是度量样本集合纯度最常用的一种指标.信息熵越小,样本集合纯度越高。
假定当前样本集合 的第 类样本所占比例为 ,则 的信息熵定义为:
的值越小,则 的纯度越高。
信息增益(information gain):
一般而言,信息增益越大,则意味着使用属性 来进行划分所获得的"纯度提升"越大。
使用"增益率" (gain ratio) 来选择最优划分属性,定义为:
其中,
称为属性 的"固有值" (intrinsic value) 。
作者介绍
胡琦
V1