您的位置  > 互联网

决策树分类的属性选择方法的研究王会青,陈俊杰

该算法以信息论为基础,结合样本。 如果选择一个属性作为测试属性,则使用这些子集的信息熵作为选择测试属性的标准,并且训练实例集应该有从包含该集的节点中长出的分支。 归纳分类。 然而,在选择测试属性时,算法往往会根据类中样本的数量来选择取值较多的属性,而取值较多的属性不一定是最优属性。 为了克服算法在选择属性方面的缺点,引入算法选择相关的、一一对应的效果来优化分类结果。 是子集中任意样本属于该类别的算法概率。 根据期望信息和熵值可以得到相应的信息增益。 在决策树归纳法中,通常采用信息增益法值,因此属性上的分支得到的信息增益值是:帮助确定生成每个节点时应该做出的选择。 合适的属性。 该方法选择信息增益最高的属性作为当前节点。 该算法采用自上而下的方式搜索可能的决策空测试属性,使得划分后的训练样本子集分类所需的信息最少。 该属性用于划分当前节点。 使用信息增益作为选择最佳属性的度量来实现样本收集。 接收日期: 基金项目:国家自然科学基金; 国家科技支撑计划作者简介:王慧清,女,山西高平人,博士研究生,专业从事数据库与智能信息处理、数据挖掘研究,通讯联系方式:**杰。 男,博士,教授,王惠清等:决策树分类的属性选择方法是数据样本归纳分类研究最多的类别。

生成规则:,类别1的详细算法描述如下: 输入:训练样本,每个属性取离散值,可以集中计算所有规则的错误率。 候选属性集是:? 输出:决策树。 选择错误率最小的规则。 处理流程:创建节点; 实验和分析。 如果节点中的所有样本都是同一类型,那么该实验会被开源数据挖掘平台中的分类平台返回为叶子节点,并标记为空,那么就会作为一个操作平台收集大量的数据返回。能够承担数据挖掘任务的机器学习叶子节点的数量,标记该节点包含的样本中类别数最多的学习算法,包括数据的预处理、分类、回归、聚类和分类。 ; 新的交互界面上的关联规则和可视化。 在决定选择信息增益最大的决策树算法时,决策树的复杂度和分类精度是需要考虑的两个最重要的因素。 常用的评价指标包括:模型准确地将节点标记为未知数据类的能力。 准备划分后的节点包含的样本集; 实验使用气候训练集,如表所示。 根据气候数据集生成相应的分支来表示测试条件; 天气温度、湿度、风力类别有风力设定; 阴天,正常,无风,下雨,正常,无风属性选择,中度,正常,无风,晴天,中度,正常,有风,因为算法要处理很多属性,其中有一些是阴天,中度和有风、 都是不相关或重复的属性,因此需要进行属性选择,忽略阴天、正常、无风、下雨、中风、有风等不相关或重复的属性,以提高算法的分类性能。 该算法引入了一种算法,使得在生成决策树时,通过算法过滤气候数据集的各种属性。 属性值较少的属性不会被属性值较多的属性过滤掉,并不重要。 得到的评价参数如表所示。 。

属性被淹没,最终减少了评价参数对决策树中取值较多的属性的依赖,从而最大限度地减少了当前属性规则的错误率和大数据掩盖小数据的总错误率的发生数据,解决算法偏向值较多的问题。 多属性偏差天气阴天-//问题。 温度适中-/然后比较训练集上所有分类器对每个属性的误差湿度-高-/正常-/率,最终选择分类效果最好的分类器作为分类策略,风平浪静-//处理过程是通过比较一个属性,可以看出风和温度的错误率比天气属性的各个值的错误率要高。 规则生成如下:为了计算属性和湿度的错误率,需要减少每个分类值中风和温度属性的错误率。 通过每个类别的样本数量来找出每个值的样本数量在分类结果比较中的重要性,相对提高天气和湿度属性在分类中的作用。 通过反复测试,算法选取天气、潮湿算法分类准确率、分类未知率、分类时间和风属性作为算法的分类属性。 ..从时间上看,算法和优化算法得到的分类如表所示。 ...表分类结果比较...指标优化分类精度/.优化后...分类未知率/...分类时间/根据表的实验结果,与算法对比,可以优化后直观地看到,优化后的算法提高了分类精度。 除该数据集降低了温度属性在分类中的重要性并有效提高了其​​重要性外,其他四个数据集的分类未知率均由该算法进行分类。 准确性。

减少了,运行时间基本减少了10%以上。 一项实验从样本数、属性数、类别数、四者的取值分布等方面,一定程度上减少了不相关属性或重复属性对分类的影响,一方面是在数据库中选取数字克服了算法中取值偏差的缺陷,提高了方法的性能和效率。 作为测试数据,数据集描述如表所示。 结论数据集算法是决策树生成算法中提出最早、最经典的算法,用于数据集中样本数属性、分类数、分类值的分布。 为了避免噪声和干扰属性对数据分类的不均匀影响,在构建决策树之前应该先建立决策树。 进行属性选择。 针对有些不均匀算法的不足,引入了针对测试属性选择有些不均匀的算法,减少了算法对取值较多的属性均匀性的依赖,提高了分类结果。 实验结果表明,与算法相比,高度不均匀改进方案具有更高的准确率,克服了算法取值偏差的问题,优化了分类结果。 然而,该算法只能使用二次交叉验证方法从静态数据集中提取静态分类规则。 如何解决使用算法和优化算法来分离数据集以及对变化的数据集进行规则提取的问题是未来的研究。 的关键. 类,分类结果如表所示。 参考文献:罗克,林木刚,奚冬梅。 数据挖掘中的分类算法概述。 计算机工程。 栾丽华,纪根林。 决策树分类技术研究。 计算机工程,柴瑞敏。 一种改进的决策树分类属性选择方法计算机工程及应用,Jun,段丽娟,王石,等。 数据挖掘原理和算法。 北京:清华大学出版社,:1.朱明. 数据挖掘。 合肥:中国科学技术大学出版社,