您的位置  > 互联网

8月更文挑战:回归树衡量分枝质量的指标

重要参数1.1

回归树衡量分支质量的指标mse采用均方误差(MSE)。 父节点和叶子节点的均方误差差作为特征选择的标准。 通过使用叶节点的平均值来最小化 L2 损失。 均方误差,即势分支问题的改进均方误差mae。 绝对平均误差MAE(平均误差),叶子节点最小化L1损失的中值。 最重要的属性仍然是 ,接口的核心仍然是apply、fit、score。

N是样本数,i是每个数据样本,fi是模型返回的值,yi是样本点i的实际数值标签。 MSE的本质是真实样本数据与回归结果之间的差异。 在回归树中,MSE不仅是衡量分支质量的指标,也是衡量回归树回归质量最常用的指标。 使用交叉验证时,通常选择均方误差作为评估(在分类树中,该指标是由得分 表示的预测)。 在回归中,MSE 越小越好。 但是,回归树接口分数返回 R 平方,而不是 MSE。

u 为残差平方和(MSE * N),v 为总平方和,N 为样本数,i 为每个数据样本,fi 为模型返回的值,yi 为实际数值标签样本点 i。 y-hat 是真实数字标签的平均值。 R-可以为正,也可以为负(如果模型残差的平方和远大于模型总平方和,则模型很糟糕,R-将为负),而均值平方误差始终为正。 在计算模型评价指标时,会考虑指标本身的性质。 均方误差本身就是一个误差,因此被归类为模型的损失,因此表示为负数。 均方误差MSE的真实值实际上是去掉负号后的数字。

二元回归树的工作原理以及交叉验证的使用

from sklearn.datasets import load_boston  #内置波士顿房价数据
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor
boston=load_boston()
regressor=DecisionTreeRegressor(random_state=42)
cross_val_score(regressor,boston.data,boston.target,cv=10,scoring='neg_mean_squared_error')

因为我们只是在训练集和测试集样本数据上调整好的参数值,但在未知数据集上也能得到好的结果,所以应用了交叉验证。 交叉验证用于观察模型。 作为稳定性的一种方法,我们将数据分为n份,其中一份作为测试集,另外n-1份作为训练集,多次计算模型的准确率,以评估模型的平均准确率模型。 训练集和测试集的划分会对模型的结果产生干扰,因此n次交叉验证的结果计算出的平均值可以更好地衡量模型的效果。

其他参数的参数调整请参考决策树分类文章。

决策树的三种优缺点 3.1 决策树的优点 3.2 决策树的缺点