首页手记基于ID3算法的决策树

基于ID3算法的决策树

标签：

机器学习

**
1.自定义信息熵计算函数，用于计算数据集的信息熵
2.自定义数据划分函数，用于根据指定特征的指定取值，划分数据集
3.step2的自数据集作为输入给step1的函数，可以计算出按某指定特征的某指定取值(A=ai)划分的
数据集的信息熵H(Di)，同时计算按某指定特征的某指定取值(A=ai)划分的数据集的样本概率|Di|/|D|
4.遍历该特征各个取值，计算各取值下划分的数据集的信息熵H(Di)和样本概率|Di|/|D|，相乘，再求和得到得到特征A对数据集D的经验条件熵H(D|A)
5.计算特征A对数据集的信息增益g(D,A)=H(D)-H(D|A)
6.以此类推，计算各特征对数据集的信息增益，取信息增益最大的特征为最佳划分特征，得到树T1
7.对T1各结点继续step3-6,选择信息增益最大的特征，继续划分数据，得到新的决策树
8.直到信息增益小于阈值，或无特征可划分，或每个分支下的所有实例都具有相同的分类，决策树完成**

import numpy as np
import pandas as pd
from math import log 
# step1 自定义信息熵计算函数，用于计算数据集的信息熵

"""
建立一个字典，对数据集各数据的类别计数，
从而计算各类别出现频率(作为概率pi)，
最后调用信息熵公式计算 H(D)=-求和(pi*logpi)
"""

def calEntropy(dataset):
    n=len(dataset)
    labelCounts={}
    
    #对数据集各数据的类别计数
    for data in dataset:
        datalabel=data[-1] #取data最后一列，类别列
        if datalabel not in labelCounts.keys():
            labelCounts[datalabel]=0
        labelCounts[datalabel]+=1
    entropy=0.0
    
    #计算各类别出现频率(作为概率pi),调用信息熵公式计算 H(D)=-求和(pi*logpi)
    for key in labelCounts.keys():
        prob=float(labelCounts[key])/n
        entropy -= prob*log(prob,2)
    return entropy

#step2 自定义数据划分函数，用于根据指定特征的指定取值，划分数据集
"""
输入：数据集、特征所在列索引、特征取值
输出：满足指定特征等于指定取值的数据子集
"""
def splitDataset(dataset,index,value):
    subDataset=[]
    for data in dataset:
        if data[index]==value:
            #抽取除了data[index]的内容(一个特征用于计算其对数据集的经验条件熵时，不需要此特征在子数据集中)
            splitData=data[:index] #取索引之前的元素
            splitData.extend(data[index+1:]) #再合并索引之后的元素
            subDataset.append(splitData)
    return subDataset

#step3~6 选择信息增益最大的特征作为数据集划分特征
"""
输入：数据集
输出：该数据集的最佳划分特征
"""
def chooseFeature(dataset):
    #初始化
    numFeature=len(dataset[0])-1 #因为最后一列是类别
    baseEntropy=calEntropy(dataset) #H(D)
    bestInfoGain=0.0
    bestFeatureIndex=-1
    
    #创建特征A各取值a的列表
    for i in range(numFeature):
        featureList=[data[i] for data in dataset]
        uniqueValue=set(featureList)
        empEntropy=0.0 #初始化特征A对数据集D的经验条件熵H(D|A)
        
        #计算特征A各取值a的信息熵H(Di)和样本概率|Di|/|D|，并相乘
        for value in uniqueValue:
            subDataset=splitDataset(dataset,i,value) #(列索引为i的特征)特征A取value值所划分的子数据集
            prob=len(subDataset)/float(len(dataset)) #计算|Di|/|D|
            empEntropy += prob*calEntropy(subDataset) #H(D|A)
        
        #取信息增益最大的特征为最佳划分特征
        infoGain=baseEntropy-empEntropy #信息增益
        if infoGain>bestInfoGain:
            bestInfoGain=infoGain
            bestFeatureIndex=i
    return bestFeatureIndex

#step7~8 递归构建决策树
def majorClass(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        classCount[vote]+=1
    
    #对classCount按value降序排序
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0] #返回类别最大的类别名

"""
输入：数据集(list类型)，数据集特征列表(按在数据集的位置排序)(list类型)
输出：该数据集的决策树
思路：【递归】
    1. 若数据集属于同一类，则返回该类别，划分停止
    2. 若数据集所有特征已经遍历，返回当前计数最多的类别为该结点类别，划分停止
    3. 否则继续分支，调用chooseFeature()函数，选择当前数据集最优特征
    4. 遍历当前最优特征各属性值，划分数据集，并递归调用自身createTree()构建子数据集的决策树
    5. 完成
"""
def createTree(dataset,featureLabels):
    classList=[data[-1] for data in dataset] #取数据集各数据类别
    
    #若数据集属于同一类，则返回该类别，划分停止
    if classList.count(classList[0])==len(classList):
        return classList[0]
    
    #若数据集所有特征已经遍历，返回当前计数最多的类别为该结点类别，划分停止
    if len(dataset[0])==1:
        return majorClass(classList)
    
    #否则继续分支，调用chooseFeature()函数，选择当前数据集最优特征
    bestFeatureIndex=chooseFeature(dataset)
    bestFeature=featureLabels[bestFeatureIndex]
    
    #用于存储决策树，字典结构存储树的所有信息，并可体现包含关系
    desitionTree={bestFeature:{}} 
    del(featureLabels[bestFeatureIndex]) #删除已被用于划分数据的特征
    
    #得到当前最优划分特征的各属性值
    featureValues=[data[bestFeatureIndex] for data in dataset]
    uniqueValues=set(featureValues)
    
    #遍历当前最优特征各属性值，划分数据集，并递归调用自身createTree()构建子数据集的决策树
    for value in uniqueValues:
        #得到已删除当前最优划分特征的特征列表,用于递归调用
        subFeatureLabels=featureLabels[:] 
       
        #用当前最优划分特征的指定值分割子数据集，用于递归调用
        subData=splitDataset(dataset,bestFeatureIndex,value) 
        desitionTree[bestFeature][value]=createTree(subData,subFeatureLabels)
    return desitionTree
def main():
	watermalon=pd.read_csv(r"watermalon.txt",sep="\t")
	watermalon_list = np.array(watermalon).tolist()
	features = watermalon.columns.tolist()[0:-1]
	my_tree = createTree(watermalon_list,features)
	print (my_tree)

if __name__  == "__main__":
	main()

运行结果

数据集

色泽根蒂敲声纹理脐部触感好瓜
1 青绿蜷缩浊响清晰凹陷硬滑是
2 乌黑蜷缩沉闷清晰凹陷硬滑是
3 乌黑蜷缩浊响清晰凹陷硬滑是
4 青绿蜷缩沉闷清晰凹陷硬滑是
5 浅白蜷缩浊响清晰凹陷硬滑是
6 青绿稍蜷浊响清晰稍凹软粘是
7 乌黑稍蜷浊响稍糊稍凹软粘是
8 乌黑稍蜷浊响清晰稍凹硬滑是
9 乌黑稍蜷沉闷稍糊稍凹硬滑否
10 青绿硬挺清脆清晰平坦软粘否
11 浅白硬挺清脆模糊平坦硬滑否
12 浅白蜷缩浊响模糊平坦软粘否
13 青绿稍蜷浊响稍糊凹陷硬滑否
14 浅白稍蜷沉闷稍糊凹陷硬滑否
15 乌黑稍蜷浊响清晰稍凹软粘否
16 浅白蜷缩浊响模糊平坦硬滑否
17 青绿蜷缩沉闷稍糊稍凹硬滑否

数据集保存为TxT格式时，保存为UTF-8编码

参考教程

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

CodeForLife_

算法工程师

手记
篇

粉丝

24

获赞与收藏

46

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33076 374

网络编程入门教程

20个小节 13758 259

Pandas 入门教程

25个小节 20437 392

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

基于ID3算法的决策树

阅读免费教程