您的位置  > 互联网

决策树DTC数据分析及鸢尾数据集分析

构建决策树的目的是找到属性和类别之间的关系,并用它来预测未来未知类别的记录的类别。 它采用自上而下的递归方法,在决策树内部节点进行属性比较,根据不同的属性值判断该节点向下的分支,并在决策树的叶子节点得出结论。 决策树算法采用树结构,根据数据的属性建立决策模型。 决策树模型常用于解决分类和回归问题。 常见的算法包括:分类和回归树(CART)、ID3(3)、C4.5、Chi-(CHAID)、Stump、随机森林()、多元自适应回归样条(MARS)和梯度推进机(GBM)。 决策数有两大优点:1)决策树模型具有可读性和描述性,有利于人工分析; 2)效率高。 决策树只需要构建一次并重复使用,并且每次预测的最大计算次数不超过决策树的深度。 例1:这里有两个例子,参考下面的文章,强烈推荐大家阅读一下,尤其是决策树的原理。

算法杂货店——分类算法决策树(树)——这也是我在课堂上讲的例子,引用了上面的文章。 通俗地说,决策树分类的思想类似于找对象。 现在想象一下,一个女孩的妈妈想给女孩介绍一个男朋友,于是出现下面的对话: 女儿:你多大了? 妈妈:26岁。 女儿:你帅吗? 妈妈:很帅。 女儿:收入高吗? 妈妈:不是很高,只是一般。 女儿:你是公务员吗? 妈妈:是的,我在税务局工作。 女儿:好的,我去接你。 这个女孩的决策过程是典型的分类树决策。 相当于根据年龄、外貌、收入以及是否公务员将男人分为两类:见过的和没见过的。 假设这个女孩对男人的要求是:30岁以下、相貌中等以上、高收入者或者收入中等以上的公务员,那么可以用下图来表示女孩的决策逻辑。 例2:课堂上的另一个例子,参考CSDN高手lsldd的文章,推荐大家阅读学习信息熵。 开始机器学习(2:决策树分类算法) 假设你想构建这样一棵自动选择苹果的决策树。 为了简单起见,我只让他学习以下4个样本: []view 1. 样本红色大好苹果 2. 0 1 1 1 3. 1 1 0 1 4. 2 0 1 0 5. 3 0 0 0示例中有 2 个属性。 A0表示是否是红苹果。

A1表示是否是大苹果。 此示例只有 2 个属性。 那么很自然总共只能有2棵决策树,如下图所示: 例3:对于第三个例子,推荐这篇文章:决策树学习笔记合集——构建决策树的基本步骤是如下: 1.开始,所有记录视为一个节点; 2.遍历每个变量的每种分割方法,找到最佳分割点; 3、拆分为两个节点N1、N2; 4. 分别对 N1 和 N2 继续步骤 2-3。 ,直到每个节点足够“纯粹”。 2. Iris数据集整合了机器学习包中的各种数据集。 上一课介绍了NBA篮球运动员数据集的使用,需要定义一个X多维矩阵或导入文件。 本课使用鸢尾花Iris数据集,这是一个非常常用的数据集。 数据集来源:Iris数据集-KEEL 该数据集共包含4个特征变量和1个分类变量。总共150个样本