设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1592|回复: 0

根据飞行距离对美国城市分类

[复制链接]

4

主题

81

金钱

105

积分

入门用户

发表于 2018-9-17 09:42:42 | 显示全部楼层 |阅读模式
例:已知美国10所城市之间的飞行距离数据,如表所示。请根据城市间的距离对它们进行分类。
10所城市飞行距离数据.png
变量C1至C10分别代表城市:Atlanta,Chicago,Denver,Houston,Los Angeles,Miami,New York,San Francisco,Seattle,Washington D.C。
编写如下程序
  1. ods graphics on;
  2. proc cluster data=chap12.mileages    /*调用cluster过程*/
  3.                                  outtree=tree          /*输出数据集tree以绘制树状图*/
  4.                                  method=average   /*应用类平均法进行聚类分析*/
  5.                                  pseudo;                 /*要求输出伪t2和伪F统计量*/
  6. id City;                                             /*定义标识变量为city*/
  7. run;
  8. proc tree data=tree HOR ; /*调用tree过程绘制树状图,且指定树根在左侧*/
  9. id City;
  10. run;
  11. ods graphics off;
复制代码
选择Run|Submit命令提交程序,以下分析平均距离法进行样品聚类分析的主要输出结果。
聚类过程.png

NCL列为聚类数;Clusters Joined列为每次聚成一个新类的两个样品(即为城市名,如Los Angeles)或旧类(如CL8);FREQ列为新类中含有的样品数,如NCL值为5时,将旧类CL8(包括Los Angeles和San Francisco)和新样品“Seattle”聚成新类,则其对应的FREQ值为3;PSF和PST2分别为伪F 统计量和伪t 2 统计量。当PST2出现峰值的前一类所对应的分类数较合适。

聚类标准图.png

横轴为聚类个数,纵轴为对应的PSF和PST2的值,观察可得当聚合为5类时,伪t 2 统计量取最大值,则聚为4类比较合适。

Norm RMS Dist列为两样品或两类间的平均距离。Tie列为结的个数,在本例中未出现打结的情况。

打结:在系统聚类的每一层,CLUSTER必须按最小距离把两类合并,对于离散距离而言,偶尔会出现几个相等的最小距离,此时便出现了打结的情况。类是采用内观测最小的序号来识别的,这两类有一个较大序号和一个较小序号,若出现结,则取其中较大序号中的最小者合并,在输出的Tie列中,以T指出最小距离的一个结,空白表明没有结。


树状图.png

纵轴为城市名,横轴代表类间的平均距离。根据笔者在图上添加的直线,将城市聚成4类,Atlanta、Chicago、New York、Washington D.C为一类,Miami为一类,Denver和Houston为一类,Los Angeles、San Francisco和Seattle为一类。即同类的城市之间飞行距离较近,而不同类的城市之间飞行距离较远。



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表