您的位置  > 互联网

(案例分析)聚类变量的方法——聚类分析案例

案例数据来源:

SPSS自带的数据文件.sav中记录了20种塑料的三个特性,分别是(拉伸强度)、光泽度(光滑度)和(透明度)。 相关经验表明,这20种塑料可分为3类。 ,如果使用这三个变量进行聚类,请确定并筛选有效的聚类变量。

一组过滤聚类变量的方法

01 盲选

所有根据经验获得的现有候选聚类变量都包含在模型中,暂时不考虑某些变量是否不合适。 本案例采用SPSS系统聚类方法。 对话框如下:

统计选项卡:选择集群成员的单个解决方案,集群数量输入数字3;

绘制选项卡:查看树形图;

选项卡:默认选项,不进行归一化;

Save选项卡:为集群成员选择单个解决方案,并输入数字3作为集群数量;

02 初步聚类

这是盲选得到的初步聚类结果,在数据视图中我们可以看到已经自动生成了一个聚类结果变量,非常有用。

03 方差分析

模型中包含的每个聚类变量是否都有助于聚类过程? 利用已经生成的初步聚类结果,我们可以使用单向方差分析来确定三个变量的分类结果差异是否显着,然后确定哪些变量对聚类没有贡献。

分析 - 比较平均值 - 单向方差分析:

选项选项卡:检查均值图

从方差分析中,我们清楚地知道模型包含的三个聚类变量中,只有“透明度”指标在各个类别中存在显着差异。 换句话说,分类是有效的,使得每个类别都有很大的不同。 另外两个变量在三个类别中没有显着差异,没有很好的类别区分度。 因此,我们可以认为这两个变量对聚类没有影响或贡献,可以考虑将其踢出模型。

我们也想从视觉的角度去看待和判断。 单向方差分析为我们提供了一张均值图。 不幸的是,这三个图表最有可能误导我们的判断,因为spss会自动为每个变量分别生成一个均值图表。 绘制图表并指定不同的纵轴坐标会导致每个图表看起来非常不同,在视觉上使我们难以做出错误的判断。

这里需要改进!

04 平均描述

为了改善上述SPSS默认选项的缺点,我们需要自己生成不同类别的三个变量的均值。 手段流程可以帮助我们。

从数值上看,拉伸强度(6.8、6.7、7.1)和光滑度(9.3、9.4、9.2)这两个指标在三类中差别不大,而有助于聚类的透明度指标在不同类别中有所不同。类别。 类别之间的区别非常明显。

05 多线均值图

克服纵轴刻度的方法是将这三个指标放在同一坐标轴上进行比较,即制作多线均值图。

至此,结果一目了然。

综上所述,我们可以从模型中去掉抗拉强度和光滑度两个指标,只留下透明度一个指标进行聚类。

我们发现前面两次聚类的结果是完全一样的,并且可以用一个指标代替前面的三个指标进行聚类。

这样做有什么意义呢? 如果这些都能整理成规则和经验,那么我们就不需要去衡量抗拉强度和光滑度这两个指标了。 您不觉得多衡量两个指标的成本会增加吗?

结尾。