胡琦

V1

2023/02/23阅读:11主题:全栈蓝

我在Datawhale学“吃瓜”(三)

我在Datawhale学“吃瓜”(三)

光阴似箭,时光冉冉,又一个周期过去了。本次主要学习了第4章决策树的相关内容,谈到决策树不得不说说决策树算法的最初由来--澳洲的罗斯·昆兰在他19岁时提出了CLS,后来在选修课作业中引入信息增益准则形成了ID3算法。

基本过程

决策树的生成是一个递归过程,导致递归返回的情形:

  • 1.当前结点包含的样本全属于同一类别,无需划分;
  • 2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
  • 3.当前结点包含的样本集合为空,不能划分.

书中决策树学习基本算法如图:

划分选择

信息熵(information entropy):是度量样本集合纯度最常用的一种指标.信息熵越小,样本集合纯度越高。

假定当前样本集合 的第 类样本所占比例为 ,则 的信息熵定义为:

的值越小,则 的纯度越高。

信息增益(information gain):

一般而言,信息增益越大,则意味着使用属性 来进行划分所获得的"纯度提升"越大。

使用"增益率" (gain ratio) 来选择最优划分属性,定义为:

其中,

称为属性 的"固有值" (intrinsic value) 。

分类:

人工智能

标签:

机器学习

作者介绍

胡琦
V1