SAS过程中UNIVARIATE过程

levin2008 · 发表于 2018-8-20 11:18:32

SAS系统的UNIVARIATE（单变量）过程主要用于对指定随机变量进行详细的描述性统计，不仅包含MEANS过程的功能，还可计算一些其他的统计量并生成统计图（茎叶图、盒形图和正态概率图）。

茎叶图（STEM-AND-LEAF DISPLAY）：用于形象地初步描述数据分布，每一数据被分成茎、叶和可以忽略部分进行描述，类似直方图。

盒形图（BOXPLOT）：由一个矩形和两条平行线组成，上线为75％分位数，下线为25％分位数，两条线之间的（+）号标识出平均数。矩形盒较短表明数据比较集中；两端的触须线对称或长短不一反映数据的分布特性。

正态概率图（NORMAL Q-Q PLOT）：主要用于辅助判断数据是否服从正态分布。它以实际观测值为纵轴、以标准百分位的百分位数为横轴，在图中用（*）号代表实际观测值，用（+）号标识一条根据数据平均数与标准差画出的参考线，若观测值服从正态分布，则星号（*）落在加号（+）上，即两者重叠多。

UNIVARIATE过程的一般使用格式如下：

PROC UNIVARIATE DATA=SAS数据集 <选项列表>;
VAR 变量列表;
BY 变量列表;
FREQ 变量;
WEIGHT 变量;
ID 变量列表;
OUTPUT <O UT=输出数据集名> <统计量关键字=变量名列表>
<PCTLPTS=百分位数 P CTLPRE=变量前缀名 P CTLNAME=变量后缀名>;
RUN;

复制代码

PROC UNIVARIATE语句后的<选项列表>主要内容如下：

VARDEF=DF/WEIGHT/WGT/N/WDF——指定方差计算中的除数D ，取值的意义同MEANS过程。

FREQ——要求生成包括变量值、频数、百分数和累计频数的频率表。

NORMAL——要求计算关于输入数据服从正态分布的假设的检验统计量。

PLOT——要求生成茎叶图、盒形图和正态概率图。

ROUND=舍入单位列表——指定VAR语句中变量的四舍五入的单位。

指定输出统计量的关键字，如下表所示。

统计量	含义	统计量	含义
N	观测数目	MODE	众数，出现次数最多的数
NMISS	包含缺失值的观测数目	T	总体均值等于0的t 统计量
NOBS	观测个数	PRT	t 分布的双尾P 值
MEAN	算术平均值	Q3	上四分位数（75％）
STDERR	均值的标准误	Q1	下四分位数（75％）
SUM	加权和	QRANGE	上下四分位数差（Q3-Q1）
STD	标准差	P1	1％分位数
VAR	方差	P5	5％分位数
CV	变异系数	P10	10％分位数
USS	加权平方和	P90	90％分位数
CSS	均值偏差的加权平方和	P95	95％分位数
SKEWNESS	对称性的度量——偏度	P99	99％分位数
KURTOSIS	尾部陡平度的度量——峰度	MSIGN	符号统计量
SUMWGT	加权数和	PROBM	大于符号秩统计量的绝对值概率
MAX	最大值	SIGNRANK	符号秩统计量
MIN	最小值	PROBS	大于中心符号秩统计量的绝对值P
RANGE	极差，最大值减去最小值	NORMAL	检验正态分布的统计量
MEDIAN	中位数	PROBN	检验正态分布假设的概率值

OUTPUT语句中主要选项如下：

<PCTLPTS=百分位数PCTLPRE=变量前缀名PCTLNAME=变量后缀名>——提供自定义计算的百分位数和指定其在输出数据集中合成的变量名。

统计量关键字=变量名列表——指定在输出数据集中要包含的统计量并将这些统计量在新数据集重命名。

		自动登录	找回密码
密码			立即注册

SAS过程中UNIVARIATE过程

站长推荐 /1