数据挖掘提升度的公式怎么算?这篇文章告诉你
小栢今天给分享数据挖掘信息增益计算公式的知识,其中也会对数据挖掘提升度的公式怎么算进行解释,希望能解决你的问题,请看下面的文章阅读吧!
数据挖掘提升度的公式怎么算?这篇文章告诉你
数据挖掘提升度的公式怎么算?这篇文章告诉你
1、决策树算法是一种比较简易的监督学习分类算法,既然叫做决策树,那么首先他是一个树形结构,简单写一下树形结构(数据结构的时候学过不少了)。
2、树状结构是一个或多个的有限,在决策树里,构成比较简单,有如下几种元素:在决策树中,每个叶子都有一个类标签,非叶子包含对属性的测试条件,用此进行分类。
3、所以个人理解,决策树就是 对一些样本,用树形结构对样本的特征进行分支,分到叶子就能得到样本终的分类,而其中的非叶子和分支就是分类的条件,测试和预测分类就可以照着这些条件来走相应的路径进行分类。
4、根据这个逻辑,很明显决策树的关键就是如何找出决策条件和什么时候算作叶子即决策树终止。
5、决策树的核心是为不同类型的特征提供表示决策条件和对应输出的方法,特征类型和划分方法包括以下几个:注意,这些图中的第二层都是分支,不是叶子。
6、如何合理的对特征进行划分,从而找到的决策模型呢?在这里需要引入信息熵的概念。
7、先来看熵的概念:在数据集中,参考熵的定义,把信息熵描述为样本中的不纯度,熵越高,不纯度越高,数据越混乱(越难区分分类)。
8、例如:要给(0,1)分类,熵是0,因为能明显分类,而均衡分布的(0.5,0.5)熵比较高,因为难以划分。
9、信息熵的计算公式为:其中 代表信息熵。
10、 是类的个数, 代表在 类时 发生的概率。
11、另外有一种Gini系数,也可以用来衡量样本的不纯度:其中 代表Gini系数,一般用于决策树的 CART算法 。
12、举个例子:如果有上述样本,那么样本中可以知道,能被分为0类的有3个,分为1类的也有3个,那么信息熵为:Gini系数为:总共有6个数据,那么其中0类3个,占比就是3/6,同理1类。
13、我们再来计算一个分布比较一下:信息熵为:Gini系数为:很明显,因为第二个分布中,很明显这些数偏向了其中一类,所以 纯度更高 ,相对的信息熵和Gini系数较低。
14、有了上述的概念,很明显如果我们有一组数据要进行分类,快的建立决策树的途径就是让其在每一层都让这个样本纯度化,那么就要引入信息增益的概念。
15、所谓增益,就是做了一次决策之后,样本的纯度提升了多少(不纯度降低了多少),也就是比较决策之前的样本不纯度和决策之后的样本不纯度,越大,效果越好。
16、让信息熵降低,每一层降低的越快越好。
17、度量这个信息熵的方法如下:其中 代表的就是信息熵(或者其他可以度量不纯度的系数)的, 是样本(parent是决策之前, 是决策之后)的信息熵(或者其他可以度量不纯度的系数), 为特征值的个数, 是原样本的记录总数, 是与决策后的样本相关联的记录个数。
本文到这结束,希望上面文章对大家有所帮助。
版权声明:图片、内容均来源于互联网 如有侵权联系836084111@qq.com 删除