8月更文挑战：回归树衡量分枝质量的指标-MTV学习库

重要参数1.1

回归树衡量分支质量的指标mse采用均方误差（MSE）。父节点和叶子节点的均方误差差作为特征选择的标准。通过使用叶节点的平均值来最小化 L2 损失。均方误差，即势分支问题的改进均方误差mae。绝对平均误差MAE（平均误差），叶子节点最小化L1损失的中值。最重要的属性仍然是，接口的核心仍然是apply、fit、score。

N是样本数，i是每个数据样本，fi是模型返回的值，yi是样本点i的实际数值标签。 MSE的本质是真实样本数据与回归结果之间的差异。在回归树中，MSE不仅是衡量分支质量的指标，也是衡量回归树回归质量最常用的指标。使用交叉验证时，通常选择均方误差作为评估（在分类树中，该指标是由得分表示的预测）。在回归中，MSE 越小越好。但是，回归树接口分数返回 R 平方，而不是 MSE。

u 为残差平方和（MSE * N），v 为总平方和，N 为样本数，i 为每个数据样本，fi 为模型返回的值，yi 为实际数值标签样本点 i。 y-hat 是真实数字标签的平均值。 R-可以为正，也可以为负（如果模型残差的平方和远大于模型总平方和，则模型很糟糕，R-将为负），而均值平方误差始终为正。在计算模型评价指标时，会考虑指标本身的性质。均方误差本身就是一个误差，因此被归类为模型的损失，因此表示为负数。均方误差MSE的真实值实际上是去掉负号后的数字。

二元回归树的工作原理以及交叉验证的使用

from sklearn.datasets import load_boston  #内置波士顿房价数据
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor
boston=load_boston()
regressor=DecisionTreeRegressor(random_state=42)
cross_val_score(regressor,boston.data,boston.target,cv=10,scoring='neg_mean_squared_error')

因为我们只是在训练集和测试集样本数据上调整好的参数值，但在未知数据集上也能得到好的结果，所以应用了交叉验证。交叉验证用于观察模型。作为稳定性的一种方法，我们将数据分为n份，其中一份作为测试集，另外n-1份作为训练集，多次计算模型的准确率，以评估模型的平均准确率模型。训练集和测试集的划分会对模型的结果产生干扰，因此n次交叉验证的结果计算出的平均值可以更好地衡量模型的效果。

其他参数的参数调整请参考决策树分类文章。

决策树的三种优缺点 3.1 决策树的优点 3.2 决策树的缺点

给这篇文章的作者打赏

相关文章

我不装了，我就是程序员工作ing！

（期中复习）戴维宁定理解题的步骤

联想台式机重装系统还会有保修吗？怎么办？