您的位置  > 互联网

(每日一题)机器学习:决策树

决策树的构建采用自上而下的递归构建方法。 决策树构建的结果是二叉树或多叉树,其输入是一组带有类别标签的训练数据。 二叉树的内部节点(非叶子节点)一般表示为逻辑推理,例如(a=b)形式的逻辑推理,其中a是属性,b是属性的某个属性值; 树的边缘是逻辑推理。 推断分支结果。 多叉树(ID3)的内部节点是属性,边都是属性的值。 有多少个属性值就有多少条边。 树的叶子节点都是类别标签。

使用决策树进行分类分为两个步骤:

步骤1:利用训练集建立并细化决策树,建立决策树模型。 这个过程实际上是从数据中获取知识并进行机器学习的过程。

步骤2:使用生成的决策树对输入数据进行分类。 对于输入记录,从根节点开始依次测试该记录的属性值,直到到达某个叶子节点,找到该记录所在的类。

问题的关键是构建决策树。 这个过程通常分为两个阶段:

(1)树构建():决策树构建算法如下所示。 可见这是一个递归的过程,最终会得到一棵树。

(2)剪枝():剪枝的目的是减少训练集中因噪声存在而造成的波动。

决策树方法的评估。

优势

与其他分类算法相比,决策树具有以下优点:

(1)快速:计算量比较小,很容易转换成分类规则。 只要沿着树的根一直到叶子,沿途的分裂条件将唯一地确定分类的谓词。

(2)准确率高:挖掘的分类规则准确率高且易于理解,决策树可以清晰地显示哪些领域更重要。

缺点

一般决策树的缺点:

(1)缺乏可扩展性:由于进行深度优先搜索,算法的大小受到内存的限制,难以处理大型训练集。 举个例子:在机器学习知识库中,约定的最大数据集只有700KB和2000条记录。 现代数据仓库通常存储数GB的海量数据。 用以前的方法显然是不行的。

(2)处理大数据集或连续量的各种改进算法(离散化、采样)不仅给分类算法增加了额外的开销,而且降低了分类的准确性。 预测连续场更加困难。 当类别太大时,随着时间的推移,错误可能会迅速增加,并且按时间顺序排列的数据需要大量的预处理工作。

然而,基于分类挖掘使用的决策树算法没有考虑噪声问题,生成的决策树非常完美。 这只是理论上的。 在实际应用过程中,大量的真实数据并不是基于意愿的。 当然,某些字段可能存在缺失值(); 数据可能不准确、包含噪声或错误; 由于缺乏必要的数据,数据可能不完整。

此外,决策树技术本身也存在一些缺点。 例如,当类别很多时,它的误差可能会出现甚至很大。 而且对连续场进行准确预测更加困难。 而在分类时,一般算法仅根据一种属性进行分类。

在噪声存在的情况下,完全拟合会导致过拟合(),即完全拟合训练数据并没有很好的预测性能。 剪枝是一种克服噪声的技术,同时可以简化树,使其更容易理解。 此外,决策树技术还可能产生子树重复和碎片问题。

决策树分类,,

原来的: