levin2008 发表于 2018-8-20 11:14:40

SAS中MEANS过程

本帖最后由 levin2008 于 2018-8-20 11:16 编辑

MEANS过程主要用于连续型数值型变量中产生针对单个变量的描述性统计量,在没有指定输出统计量时,系统默认输出N(样本量)、MEAN(均值)、STD DEV(标准差)、MIN(最小值)、MAX(最大值)5类统计量。MEANS过程语句使用格式如下:
PROC MEANS DATA=SAS数据集 <选项列表>;
VAR    变量列表;
CLASS    变量列表;
BY    变量列表;
FREQ    变量;
WEIGHT变量;
ID    变量列表;
OUTPUT<O UT=输出数据集名><统计量关键字=变量名列表>;
RUN;
PROC MEANS 语句后的<选项列表>主要内容如下:

VARDEF=DF/WEIGHT/WGT/N/WDF——指定方差的计算公式中的除数D 。若VARDF=DF则D =N -1(系统默认);若VARDF=WEIGHT/WGT则D=∑Wi ;若VARDF=N则D=N ;若VARDEF=WDF则D=∑Wi-1 。

NOPRINT——不输出任何描述性统计量。

MAXDEC=数字——输出结果中小数点位数(0~8)(系统默认值为8)。

DESCENDING——指定输出的数据集按照_TYPE_值降序排列(系统默认升序)。

ALPHA=数字——设置计算置信区间的置信水平α ,α 值为0~1。

统计量——指定输出分析指标,可使用的关键字如下表所示。

统计量含义统计量含义
N不包含缺失值的观测数目MODE众数,出现频数最高的数
NMISS包含缺失值的观测数目SUMWGT加权数和
MEAN平均数MAX最大值
STDERR均值的标准误MIN最小值
SUM加权和RANGE极差,最大值减去最小值
STD标准差MEDIAN中位数
VAR方差T总体均值等于0的t 统计量
CV变异系数PRTt 分布的双尾P 值
USS加权平方和CLM置信上限和下限
CSS均值偏差的加权平方和LCLM置信下限
SKEWNESS对称性的度量——偏度UCLM置信上限
KURTOSIS尾部陡平度的度量——峰度  
MEANS过程所使用的语句意义如下:

VAR语句——指定进行描述性统计分析的变量,并指定变量输出顺序,如语句“var height weight;”则先输出变量height的结果,再输出变量weight的结果。

BY语句——指定分组变量,按BY语句定义的变量分组计算其相应的统计量,注意使用前应先按BY变量对数据集排序,否则系统将报错。

CLASS语句——定义观测组,分组计算观测的统计量。

FREQ语句——指定一个数值型的频数变量,它的值表示输入数据集中相应观测出现的频数。

WEIGHT语句——指定加权变量,它的值表示相应观测的权数。

ID语句——为识别输出数据集里的观测,在输出数据集中增加的一个或几个附加变量。

在MEANS过程,使用BY或CLASS语句得到的结果意义是一样的,但使用BY语句将按照BY变量的不同取值分别输出多张结果报表,而使用CLASS语句输出结果于一张报表,不同行代表CLASS语句的不同取值。MEANS过程对OUTPUT语句的次数没有限制,可使用多个OUTPUT语句来创建内容不同的多个数据集,OUTPUT语句后的选项意义如下:

<OUT=输出数据集名>——输出数据集名。

统计量关键字=变量名列表——指定输出的数据集中包含的统计量与它们在新数据集中的变量名。可定义输出的统计量关键字如上表所示。例如,使用语句“output out=chap4.test mean=sample_mean”定义将计算结果mean保存到数据集chap4.test中,且将mean重命名为sample_mean。
页: [1]
查看完整版本: SAS中MEANS过程