我在Datawhale学“吃瓜”（三）

❝
光阴似箭，时光冉冉，又一个周期过去了。本次主要学习了第4章「决策树」的相关内容，谈到决策树不得不说说决策树算法的最初由来--澳洲的罗斯·昆兰在他19岁时提出了CLS，后来在选修课作业中引入信息增益准则形成了ID3算法。
❞

基本过程

决策树的生成是一个递归过程,导致递归返回的情形：

书中决策树学习基本算法如图：

信息熵（information entropy）：是度量样本集合纯度最常用的一种指标.信息熵越小，样本集合纯度越高。

假定当前样本集合的第类样本所占比例为，则的信息熵定义为：

的值越小，则的纯度越高。

信息增益（information gain）：

一般而言，信息增益越大，则意味着使用属性来进行划分所获得的"纯度提升"越大。

使用"增益率" (gain ratio) 来选择最优划分属性，定义为：

其中，

称为属性的"固有值" (intrinsic value) 。