|
SAS系统的UNIVARIATE(单变量)过程主要用于对指定随机变量进行详细的描述性统计,不仅包含MEANS过程的功能,还可计算一些其他的统计量并生成统计图(茎叶图、盒形图和正态概率图)。
茎叶图(STEM-AND-LEAF DISPLAY):用于形象地初步描述数据分布,每一数据被分成茎、叶和可以忽略部分进行描述,类似直方图。
盒形图(BOXPLOT):由一个矩形和两条平行线组成,上线为75%分位数,下线为25%分位数,两条线之间的(+)号标识出平均数。矩形盒较短表明数据比较集中;两端的触须线对称或长短不一反映数据的分布特性。
正态概率图(NORMAL Q-Q PLOT):主要用于辅助判断数据是否服从正态分布。它以实际观测值为纵轴、以标准百分位的百分位数为横轴,在图中用(*)号代表实际观测值,用(+)号标识一条根据数据平均数与标准差画出的参考线,若观测值服从正态分布,则星号(*)落在加号(+)上,即两者重叠多。
UNIVARIATE过程的一般使用格式如下:
- PROC UNIVARIATE DATA=SAS数据集 <选项列表>;
- VAR 变量列表;
- BY 变量列表;
- FREQ 变量;
- WEIGHT 变量;
- ID 变量列表;
- OUTPUT <O UT=输出数据集名> <统计量关键字=变量名列表>
- <PCTLPTS=百分位数 P CTLPRE=变量前缀名 P CTLNAME=变量后缀名>;
- RUN;
复制代码
PROC UNIVARIATE语句后的<选项列表>主要内容如下:
VARDEF=DF/WEIGHT/WGT/N/WDF——指定方差计算中的除数D ,取值的意义同MEANS过程。
FREQ——要求生成包括变量值、频数、百分数和累计频数的频率表。
NORMAL——要求计算关于输入数据服从正态分布的假设的检验统计量。
PLOT——要求生成茎叶图、盒形图和正态概率图。
ROUND=舍入单位列表——指定VAR语句中变量的四舍五入的单位。
指定输出统计量的关键字,如下表所示。
统计量 | 含义 | 统计量 | 含义 | N | 观测数目 | MODE | 众数,出现次数最多的数 | NMISS | 包含缺失值的观测数目 | T | 总体均值等于0的t 统计量 | NOBS | 观测个数 | PRT | t 分布的双尾P 值 | MEAN | 算术平均值 | Q3 | 上四分位数(75%) | STDERR | 均值的标准误 | Q1 | 下四分位数(75%) | SUM | 加权和 | QRANGE | 上下四分位数差(Q3-Q1) | STD | 标准差 | P1 | 1%分位数 | VAR | 方差 | P5 | 5%分位数 | CV | 变异系数 | P10 | 10%分位数 | USS | 加权平方和 | P90 | 90%分位数 | CSS | 均值偏差的加权平方和 | P95 | 95%分位数 | SKEWNESS | 对称性的度量——偏度 | P99 | 99%分位数 | KURTOSIS | 尾部陡平度的度量——峰度 | MSIGN | 符号统计量 | SUMWGT | 加权数和 | PROBM | 大于符号秩统计量的绝对值概率 | MAX | 最大值 | SIGNRANK | 符号秩统计量 | MIN | 最小值 | PROBS | 大于中心符号秩统计量的绝对值P | RANGE | 极差,最大值减去最小值 | NORMAL | 检验正态分布的统计量 | MEDIAN | 中位数 | PROBN | 检验正态分布假设的概率值 | OUTPUT语句中主要选项如下:
<PCTLPTS=百分位数PCTLPRE=变量前缀名PCTLNAME=变量后缀名>——提供自定义计算的百分位数和指定其在输出数据集中合成的变量名。
统计量关键字=变量名列表——指定在输出数据集中要包含的统计量并将这些统计量在新数据集重命名。
|
|