SPSS统计分析案例：TwoStep二阶聚类

不惧困难 · 发表于 2019-7-23 14:44:14

样本数据聚类效果的好与坏，参与聚类的变量在其中的作用至关重要。而现实中，聚类变量可能是连续数据，也可能是类别数据，所以诸如层次聚类和K均值聚类这样的统计方法，它们在类别变量数据面前就显得不足够实用了。

二阶聚类法，则可以完美解决这个问题。它的优势至少表现在以下几个方面：

可同时基于类别变量和连续变量进行聚类；
可自动确定最终的分类个数；
可处理大型数据集；

二阶聚类，或TwoStep聚类，也常被称为两步聚类，顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察，构建CF分类特征树，同一个树节点内的记录相似度高，相似度差的记录则会生成新的节点。第二步，在分类树的基础上，使用凝聚法对节点进行分类，每一个聚类结果使用BIC或者AIC进行判断，得出最终的聚类结果。

同其他统计方法一样，二阶聚类也有严苛的适用条件，它要求模型中的变量独立，类别变量是多项式分布，连续变量须是正态分布。

看一个案例。
以SPSS软件自带数据car-sales.sav为例。汽车生产厂商需要有效的方法评价当前市场情况，了解市场需要，找到受市场欢迎的，有市场竞争力的车型配置。

案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。（本例主要展示二阶聚类过程，暂不考虑变量独立性检验）

一 SPSS二阶聚类参数设置
1、依次点击分析→分类→二阶聚类菜单命令，弹出【二阶聚类分析】对话框（或称主面板），如下所示：

将唯一一个类别型变量“种类”移入分类变量框，并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内；

在距离测量选项卡中选择“对数似然”，作为聚类变量相似度的测量形式；在聚类准则选项卡中选择“BIC”，作为聚类个数的判断依据；其他选项默认设置；

2、主面板上点击“选项”按钮，弹出【二阶聚类选项】对话框，如下所示：

本案例暂不进行噪声处理；模型构建的内存最大分配默认为64MB；

重点看“待标准化”框，软件自动将9个连续型聚类变量纳入框内，表示软件将对这些变量自动进行标准化处理，以统一测量尺度；

3、在主面板点击“输出”按钮，弹出【二阶聚类输出】对话框，如下所示：

勾选“透视表”，输出的结果主要出现在结果查看器（主要是表格形式）；
勾选“图表和表”，输出的结果出现在模型查看器（可视化程度高）；
重要：勾选“创建聚类成员变量”，这是整个聚类的最终结果，要求软件为每一行记录输出对应的类；
本案例暂不演示“XML模型导出”（便于模型更新，十分有用）；
返回主面板，点击底部“确定”按钮，软件开始执行二阶聚类。

二结果查看器结果解读
主要罗列二阶聚类的透视表结果，均是表格，可视化程度较低，主要结果解读如下：
BIC自动聚类表:

重要结果之一。此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数，主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标，SPSS软件综合四个判据，最后自动确定最佳聚类个数。
此处可不必完全掌握具体如何判断，接受SPSS软件智能化给出的聚类个数即可。（尤其适合非统计专业）

聚类分布表

那么本例软件最终聚为几类呢？如上表所示，软件给出一个3类的结果，并告知每一类的个案规模。这三类是不是最合适，可以具体看类的特征是否有现实意义。

三模型查看器结果解读
结果查看器中双击“模型摘要图”，打开模型浏览器，这一部分结果高度可视化，读取更直观。模型浏览器分为左右两个板块，左侧为主视图，右侧为辅助视图，主要结果解读如下：
主视图模型摘要

展示模型的基本信息，基于10个聚类变量进行二阶聚类，最终确定的聚类个数为3类。总体上给予本次聚类质量尚可的评价，尚能接受，还未达到良好的程度，有待进一步测试和优化。

聚为3类。其中第1类个案规模占有效样本的比例为40.8%，第2类为25.7%，第3类为33.6%，这和前面透视表给出的结果一致。总体判断：3个类的个案规模没有出现过大或者过小的情况，区分度尚可。

辅助视图预测变量重要性

在区分不同类别的能力方面，“种类”变量效果最好，限重、用油功效排在第二和第三的位置。也可以理解为种类、限重、用油功效三个变量对聚类的贡献排在前三位。

主视图聚类特征描述

聚类分析最终的目的就是要得到类并且能足够清晰地描述类的特征，上表将类和聚类的各变量交叉分析，给出每一类在不同指标上的中心点或分布，有助于准确归纳类特征。

点击其中一个单元格，比如2类的“用油功效”单元格，在右侧软件将会输出辅助视图，如下：

结合以上两张图表可知，第2类车在油耗方面表现最佳，是3类车中比较实用的车型。

聚类比较
在模型浏览器左侧的主视图中按ctrl键，同时选定两个或以上类，在右侧辅助视图中将出现两个类或以上类的特征对比。

以第1类和第3类为例，两类在价格方面差异较大，第3类价格偏高，而第1类价格较低；车的长度上，第3类同样较长，此外还可以看到，第3类车型在轴距、宽度、马力、储油量、限重等方面较第1类都高很多。

四类成员
聚类之后，我们有必要就每一个记录对应的类有所了解，类成员变量（最终的聚类结果）非常重要，便于日后深入比对和分析。

软件将其自动保存在数据视图最后一列，新生成变量“TSC_n”，其中TSC即表示二阶聚类，n是一个正整数，表示本次过程执行的内部运行顺序。

五类特征总结
综合以上信息，3类车型可以描述如下：
第1类：价格便宜，体积、限重和马力较小，属于低端车型；
第2类：价格适中，体积、限重和马力较第1类明显提高，油耗低特征突出，属于实用车型；
第3类：价格较高，体积、限重和第2类相差较小，但马力在3类车中最高，油耗居中，属于高端车型；

在SPSS软件提供的三种聚类算法中，二阶聚类最为特殊，一是因为可以同时处理类别变量和连续变量，还有一点极为关键，二阶聚类可以自动确定最终的类的个数，算得上具备自动探索未知领域的能力，这是SPSS层次聚类和K均值聚类无法相比的。
能自动聚类、允许类别变量，再加上善于处理大数据集，二阶聚类的优势十分明显，可以在各行业方便有效的使用，值得推荐。

		自动登录	找回密码
密码			立即注册

SPSS统计分析案例：TwoStep二阶聚类

站长推荐 /1