设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2009|回复: 0

SAS过程中UNIVARIATE过程

[复制链接]

5

主题

117

金钱

180

积分

入门用户

发表于 2018-8-20 11:18:32 | 显示全部楼层 |阅读模式
SAS系统的UNIVARIATE(单变量)过程主要用于对指定随机变量进行详细的描述性统计,不仅包含MEANS过程的功能,还可计算一些其他的统计量并生成统计图(茎叶图、盒形图和正态概率图)。

茎叶图(STEM-AND-LEAF DISPLAY):用于形象地初步描述数据分布,每一数据被分成茎、叶和可以忽略部分进行描述,类似直方图。

盒形图(BOXPLOT):由一个矩形和两条平行线组成,上线为75%分位数,下线为25%分位数,两条线之间的(+)号标识出平均数。矩形盒较短表明数据比较集中;两端的触须线对称或长短不一反映数据的分布特性。

正态概率图(NORMAL Q-Q PLOT):主要用于辅助判断数据是否服从正态分布。它以实际观测值为纵轴、以标准百分位的百分位数为横轴,在图中用(*)号代表实际观测值,用(+)号标识一条根据数据平均数与标准差画出的参考线,若观测值服从正态分布,则星号(*)落在加号(+)上,即两者重叠多。

UNIVARIATE过程的一般使用格式如下:
  1. PROC UNIVARIATE DATA=SAS数据集 <选项列表>;
  2. VAR      变量列表;
  3. BY       变量列表;
  4. FREQ     变量;
  5. WEIGHT   变量;
  6. ID       变量列表;
  7. OUTPUT  <O UT=输出数据集名> <统计量关键字=变量名列表>
  8. <PCTLPTS=百分位数 P CTLPRE=变量前缀名 P CTLNAME=变量后缀名>;
  9. RUN;
复制代码

PROC UNIVARIATE语句后的<选项列表>主要内容如下:

VARDEF=DF/WEIGHT/WGT/N/WDF——指定方差计算中的除数D ,取值的意义同MEANS过程。

FREQ——要求生成包括变量值、频数、百分数和累计频数的频率表。

NORMAL——要求计算关于输入数据服从正态分布的假设的检验统计量。

PLOT——要求生成茎叶图、盒形图和正态概率图。

ROUND=舍入单位列表——指定VAR语句中变量的四舍五入的单位。

指定输出统计量的关键字,如下表所示。
统计量含义统计量含义
N观测数目MODE众数,出现次数最多的数
NMISS包含缺失值的观测数目T总体均值等于0的t 统计量
NOBS观测个数PRTt 分布的双尾P 值
MEAN算术平均值Q3上四分位数(75%)
STDERR均值的标准误Q1下四分位数(75%)
SUM加权和QRANGE上下四分位数差(Q3-Q1)
STD标准差P11%分位数
VAR方差P55%分位数
CV变异系数P1010%分位数
USS加权平方和P9090%分位数
CSS均值偏差的加权平方和P9595%分位数
SKEWNESS对称性的度量——偏度P9999%分位数
KURTOSIS尾部陡平度的度量——峰度MSIGN符号统计量
SUMWGT加权数和PROBM大于符号秩统计量的绝对值概率
MAX最大值SIGNRANK符号秩统计量
MIN最小值PROBS大于中心符号秩统计量的绝对值P
RANGE极差,最大值减去最小值NORMAL检验正态分布的统计量
MEDIAN中位数PROBN检验正态分布假设的概率值
OUTPUT语句中主要选项如下:

<PCTLPTS=百分位数PCTLPRE=变量前缀名PCTLNAME=变量后缀名>——提供自定义计算的百分位数和指定其在输出数据集中合成的变量名。

统计量关键字=变量名列表——指定在输出数据集中要包含的统计量并将这些统计量在新数据集重命名。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表