设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2247|回复: 0

SPSS统计分析案例:TwoStep二阶聚类

[复制链接]

36

主题

201

金钱

340

积分

入门用户

发表于 2019-7-23 14:44:14 | 显示全部楼层 |阅读模式

样本数据聚类效果的好与坏,参与聚类的变量在其中的作用至关重要。而现实中,聚类变量可能是连续数据,也可能是类别数据,所以诸如层次聚类和K均值聚类这样的统计方法,它们在类别变量数据面前就显得不足够实用了。

二阶聚类法,则可以完美解决这个问题。它的优势至少表现在以下几个方面:

可同时基于类别变量和连续变量进行聚类;
可自动确定最终的分类个数;
可处理大型数据集;

二阶聚类,或TwoStep聚类,也常被称为两步聚类,顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。

同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。

看一个案例。
以SPSS软件自带数据car-sales.sav为例。汽车生产厂商需要有效的方法评价当前市场情况,了解市场需要,找到受市场欢迎的,有市场竞争力的车型配置。
1.jpg
案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。(本例主要展示二阶聚类过程,暂不考虑变量独立性检验)


一  SPSS二阶聚类参数设置
1、依次点击  分析→分类→二阶聚类  菜单命令,弹出【二阶聚类分析】对话框(或称主面板),如下所示:
2.jpg
将唯一一个类别型变量“种类”移入分类变量框,并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内;

在距离测量选项卡中选择“对数似然”,作为聚类变量相似度的测量形式;在聚类准则选项卡中选择“BIC”,作为聚类个数的判断依据;其他选项默认设置;


2、主面板上点击“选项”按钮,弹出【二阶聚类 选项】对话框,如下所示:
3.jpg
本案例暂不进行噪声处理;模型构建的内存最大分配默认为64MB;

重点看“待标准化”框,软件自动将9个连续型聚类变量纳入框内,表示软件将对这些变量自动进行标准化处理,以统一测量尺度;


3、在主面板点击“输出”按钮,弹出【二阶聚类 输出】对话框,如下所示:
4.jpg
勾选“透视表”,输出的结果主要出现在结果查看器(主要是表格形式);
勾选“图表和表”,输出的结果出现在模型查看器(可视化程度高);
重要:勾选“创建聚类成员变量”,这是整个聚类的最终结果,要求软件为每一行记录输出对应的类;
本案例暂不演示“XML模型导出”(便于模型更新,十分有用);
返回主面板,点击底部“确定”按钮,软件开始执行二阶聚类。

二 结果查看器 结果解读
主要罗列二阶聚类的透视表结果,均是表格,可视化程度较低,主要结果解读如下:
BIC自动聚类表:
5.jpg
重要结果之一。此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数,主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标,SPSS软件综合四个判据,最后自动确定最佳聚类个数。
此处可不必完全掌握具体如何判断,接受SPSS软件智能化给出的聚类个数即可。(尤其适合非统计专业)

聚类分布表
6.jpg
那么本例软件最终聚为几类呢?如上表所示,软件给出一个3类的结果,并告知每一类的个案规模。这三类是不是最合适,可以具体看类的特征是否有现实意义。


三  模型查看器 结果解读
结果查看器中双击“模型摘要图”,打开模型浏览器,这一部分结果高度可视化,读取更直观。模型浏览器分为左右两个板块,左侧为主视图,右侧为辅助视图,主要结果解读如下:
主视图 模型摘要
7.jpg
展示模型的基本信息,基于10个聚类变量进行二阶聚类,最终确定的聚类个数为3类。总体上给予本次聚类质量尚可的评价,尚能接受,还未达到良好的程度,有待进一步测试和优化。
8.jpg
聚为3类。其中第1类个案规模占有效样本的比例为40.8%,第2类为25.7%,第3类为33.6%,这和前面透视表给出的结果一致。总体判断:3个类的个案规模没有出现过大或者过小的情况,区分度尚可。

辅助视图 预测变量重要性
9.jpg
在区分不同类别的能力方面,“种类”变量效果最好,限重、用油功效排在第二和第三的位置。也可以理解为种类、限重、用油功效三个变量对聚类的贡献排在前三位。

主视图 聚类特征描述
10.jpg
聚类分析最终的目的就是要得到类并且能足够清晰地描述类的特征,上表将类和聚类的各变量交叉分析,给出每一类在不同指标上的中心点或分布,有助于准确归纳类特征。

点击其中一个单元格,比如2类的“用油功效”单元格,在右侧软件将会输出辅助视图,如下:
11.jpg
结合以上两张图表可知,第2类车在油耗方面表现最佳,是3类车中比较实用的车型。


聚类比较
在模型浏览器左侧的主视图中按ctrl键,同时选定两个或以上类,在右侧辅助视图中将出现两个类或以上类的特征对比。
12.jpg
以第1类和第3类为例,两类在价格方面差异较大,第3类价格偏高,而第1类价格较低;车的长度上,第3类同样较长,此外还可以看到,第3类车型在轴距、宽度、马力、储油量、限重等方面较第1类都高很多。

四 类成员
聚类之后,我们有必要就每一个记录对应的类有所了解,类成员变量(最终的聚类结果)非常重要,便于日后深入比对和分析。
13.jpg
软件将其自动保存在数据视图最后一列,新生成变量“TSC_n”,其中TSC即表示二阶聚类,n是一个正整数,表示本次过程执行的内部运行顺序。

五 类特征总结
综合以上信息,3类车型可以描述如下:
第1类:价格便宜,体积、限重和马力较小,属于低端车型;
第2类:价格适中,体积、限重和马力较第1类明显提高,油耗低特征突出,属于实用车型;
第3类:价格较高,体积、限重和第2类相差较小,但马力在3类车中最高,油耗居中,属于高端车型;


在SPSS软件提供的三种聚类算法中,二阶聚类最为特殊,一是因为可以同时处理类别变量和连续变量,还有一点极为关键,二阶聚类可以自动确定最终的类的个数,算得上具备自动探索未知领域的能力,这是SPSS层次聚类和K均值聚类无法相比的。
能自动聚类、允许类别变量,再加上善于处理大数据集,二阶聚类的优势十分明显,可以在各行业方便有效的使用,值得推荐。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表