设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1381|回复: 0

CLUSTER过程

[复制链接]

4

主题

81

金钱

105

积分

入门用户

发表于 2018-9-17 09:25:25 | 显示全部楼层 |阅读模式
CLUSTER过程主要应用最短距离法、最长距离法、平均距离法等参数方法和密度估计法、两阶段密度估计法等非参数方法对样品进行聚类。

CLUSTER过程一般使用格式如下:
  1. PROC CLUSTER <选项列表>;
  2. VAR 变量列表;
  3. ID 变量;
  4. FREQ 变量;
  5. COPY 变量表;
  6. RMSSTD 变量;
  7. BY 变量表;
  8. RUN;
复制代码

PROC CLUSTER语句后主要的控制选项为:输入、输出数据集选项,聚类方法细节选项,打印输出选项。
输入、输出数据集选项
选项意义
DATA=SAS数据集定义包含进行聚类的观测的输入数据集
OUTTREE=SAS数据集新建一个供TREE过程调用输出聚类结果的树状图的数据集
聚类方法细节选项
选项意义
METHOD=算法指定聚类方法: WARD(离差平方和法)、AVERAGE(类平均法)、CENTROID(重心法)、COMPLETE  (最长距离法)、SINGLE(最短距离法)、MEDIAN(中间距离法)、DENSITY(密度法)、FLEXIBLE(可变类平均法)、TWOSTAGE(两阶段密度法)、EML(最大似然法)、MCQUITTY(相似分析法)
STANDARD对变量实施标准化
NONORM阻止距离被正态化成均值为1或均方根为1
NOSQUARE阻止CANDISC过程在METHOD= AVERAGE、CENTROID、MEDIAN、WARD方法中将距离数据平方
MODE=N当合并两个类时,规定对被指定的众数类中的每类至少有N个成员。此选项只能与METHOD= DENSITY或 TWOSTAGE联用
TRIM=P要求从分析中删去那些概率密度估计较小的点。P的有效值为0≤PMETHOD= SINGLE中
DIM=N当规定METHOD=  DENSITY或TWOSTAGE时指定使用的维数。N值必须设置为大于或等于1。如果数据是坐标数据,默认值为变量的个数;如果是距离数据,默认值为1
HYBRID要求用WONG混合聚类方法,其中密度用K均值法的初始聚类分析中的均值计算得到。这个选项只能在规定METHOD= DENSITY或  TWOSTAGE时使用
K=N指明K最近邻估计法中近邻的个数。近邻个数N必须大于或等于2且小于观察数
R=N指明均匀核密度估计法的支撑球半径。N值必须设置为大于0
NOTIE阻止CLUSTER过程在聚类历史过程中检查每次产生的类间最小距离连接(TIES)的情况。规定这个选项以便减少过程执行的时间和空间
打印输出选项
选项意义
RSQUARE输出R 2 和半偏R 2
RMSSTD输出每一类的均方根标准差
CCC输出在均匀的原假设下判断聚类分成几类合适的一种立方聚类准则统计量CCC和近似期望值R 2 。同时打印输出选项RSQUARE有关的R 2 和半偏R  2 。此选项不适合于METHOD=SINGLE,因为该方法容易删掉分布的结尾部分
PSEUDO输出伪F 统计量(标志为PSF)和伪t 2 统计量(标志为PST2)。当分类数目不同时,它们有不同的取值
SIMPLE打印简单统计量
STD标准化变量

CLUSTER过程中使用的其他语句含义如下:

COPY语句——指明输入数据集中的一些变量复制到OUTTREE=的输出数据集中。

RMSSTD语句——当输入数据集中的坐标数据代表类的均值时,定义表示均方根标准差变量,通常与FREQ语句中的变量配合使用。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表