（每日一题）机器学习：决策树-MTV学习库

决策树的构建采用自上而下的递归构建方法。决策树构建的结果是二叉树或多叉树，其输入是一组带有类别标签的训练数据。二叉树的内部节点（非叶子节点）一般表示为逻辑推理，例如（a=b）形式的逻辑推理，其中a是属性，b是属性的某个属性值; 树的边缘是逻辑推理。推断分支结果。多叉树（ID3）的内部节点是属性，边都是属性的值。有多少个属性值就有多少条边。树的叶子节点都是类别标签。

使用决策树进行分类分为两个步骤：

步骤1：利用训练集建立并细化决策树，建立决策树模型。这个过程实际上是从数据中获取知识并进行机器学习的过程。

步骤2：使用生成的决策树对输入数据进行分类。对于输入记录，从根节点开始依次测试该记录的属性值，直到到达某个叶子节点，找到该记录所在的类。

问题的关键是构建决策树。这个过程通常分为两个阶段：

(1)树构建()：决策树构建算法如下所示。可见这是一个递归的过程，最终会得到一棵树。

（2）剪枝（）：剪枝的目的是减少训练集中因噪声存在而造成的波动。

决策树方法的评估。

优势

与其他分类算法相比，决策树具有以下优点：

(1)快速：计算量比较小，很容易转换成分类规则。只要沿着树的根一直到叶子，沿途的分裂条件将唯一地确定分类的谓词。

（2）准确率高：挖掘的分类规则准确率高且易于理解，决策树可以清晰地显示哪些领域更重要。

缺点

一般决策树的缺点：

(1)缺乏可扩展性：由于进行深度优先搜索，算法的大小受到内存的限制，难以处理大型训练集。举个例子：在机器学习知识库中，约定的最大数据集只有700KB和2000条记录。现代数据仓库通常存储数GB的海量数据。用以前的方法显然是不行的。

(2)处理大数据集或连续量的各种改进算法(离散化、采样)不仅给分类算法增加了额外的开销，而且降低了分类的准确性。预测连续场更加困难。当类别太大时，随着时间的推移，错误可能会迅速增加，并且按时间顺序排列的数据需要大量的预处理工作。

然而，基于分类挖掘使用的决策树算法没有考虑噪声问题，生成的决策树非常完美。这只是理论上的。在实际应用过程中，大量的真实数据并不是基于意愿的。当然，某些字段可能存在缺失值()；数据可能不准确、包含噪声或错误；由于缺乏必要的数据，数据可能不完整。

此外，决策树技术本身也存在一些缺点。例如，当类别很多时，它的误差可能会出现甚至很大。而且对连续场进行准确预测更加困难。而在分类时，一般算法仅根据一种属性进行分类。

在噪声存在的情况下，完全拟合会导致过拟合（），即完全拟合训练数据并没有很好的预测性能。剪枝是一种克服噪声的技术，同时可以简化树，使其更容易理解。此外，决策树技术还可能产生子树重复和碎片问题。

决策树分类，，

原来的：

给这篇文章的作者打赏

相关文章

2016年大学生学习网站排行榜（第一弹）

工厂模式与工厂类分开的区别，你知道吗？

抖音app集卡分红包活动四亿元电影补贴哦