推荐专题：

900字范文 > 机器学习实战2.1--决策树之求数据集的香农熵

机器学习实战2.1--决策树之求数据集的香农熵

时间：2020-01-27 15:07:07

相关推荐

机器学习实战2.1--决策树之求数据集的香农熵

1.什么是香农熵？

集合信息的度量方式称为香农熵或者简称为熵。

熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义。如果待分类的事务可能划分在多个分类之中，则符号的信息定义为：

其中是选择该分类的概率。

为了计算熵，我们需要计算所有类别所有可能值包含的信息期望，通过下面的式子得到：

其中n是分类的数目。

2.计算给定数据集的香农熵

代码如下：

#计算给定数据集的香农熵from math import logdef calcShannonEnt(dataSet):num=len(dataSet) #数据集的样本数量labelCount={}#创建一个数据字典，它的键是数据集最后一列的数据，集样本的类别；它的值是该分类中的样本数量#计算每种类别下的样本数量，并将其放在字典中对应的键下for featureVec in dataSet:label=featureVec[-1]#取样本中的最后一个值if label not in labelCount.keys():labelCount[label]=1else:labelCount[label]+=1#计算数据集的熵shannonEnt=0.0for key in labelCount.keys():pro=float(labelCount[key])/numshannonEnt-=pro*log(pro,2)return shannonEntdataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]print(calcShannonEnt(dataSet))

运行结果：

0.9709505944546686

3.计算给定数据集的香农熵的步骤如下：

1.计算数据集中实例的总数

2.创建一个数据字典，它的键为数据集中最后一列的数据。如果当前键不存在，则扩展字典并将当前键加入字典。每个键对应的值都记录了当前类别出现的次数。

3.分别计算所有类别出现的概率。然后根据这个概率计算香农熵。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

自己尝试使用简单数据集实现决策树代码——《机器学习实战》

2023-09-27

【10月31日】机器学习实战（二）决策树：隐形眼镜数据集

2020-08-11

机器学习实战之决策树（四）示例：预测隐形眼镜类型（含数据集）

2022-11-20

【机器学习实战】使用sklearn中的决策树对红酒数据集进行分类（Jupyter）

2020-04-27

扩展阅读

: 一篇文章搞懂机器学习中决策树的那些事儿

: 从文本处理到自动驾驶：机器学习最常用的50大免费数据集

: 几千条文本库也能做机器学习！NLP小数据集训练指南

: 几千条文本库也能做机器学习！NLP小数据集训练指南

: 几千条文本库也能做机器学习（NLP小数据集训练指南）

: 基于肺腺癌数据集的机器学习预测免疫相关基因对患者预后的影响验证

最近发布

高一议论文：未来在绽放900字

2024-09-03

澳大利亚Australia900字英语作文

2024-09-03

中华魂作文900字初二书信作文

2024-09-02

我心中的家乡美好风景

2024-09-02

时光交错：逝去与现在的交响

2024-09-02

做人欣赏别人900字作文

2024-09-02

推荐专题

摘抄900字我的妈妈作文900字周记900字高中作文难忘的一件事900字我的妈妈900字作文暑假生活作文900字上课说话检讨书900字我的朋友作文900字散文900字妈妈我想对你说900字秋天作文900字老人与海读后感900字周记大全900字 900字母爱作文900字