REG过程

lillian0630 · 发表于 2018-8-24 10:18:50

REG过程是所有回归分析过程中使用最普遍的一种。在过程中用户可应用MODEL语句建立用户需要的线性模型，REG过程提供9种选择最佳回归模型的方法，生成数据的散点图和多种统计量；产生部分回归诊断图，并进行共线性诊断；输出预测值、误差、置信区间及向量内成绩矩阵等，并可将这些分析结果存在一个SAS数据集中。

REG过程的一般使用格式如下：

PROC REG DATA=SAS数据集;
MODEL因变量=自变量名列;
VAR变量列表；
OUTPUT OUT=数据集名;
PLOT绘图表达式;
WEIGHT变量名;
FREQ变量名;
BY变量名;
RESTRICT方程1，方程2，…;
TEST方程1，方程2，…;
RUN;

复制代码

MODEL语句必须定义，其他语句用户可根据情况选择。REG过程某些语句后的控制选项如表所示。

PROCREG语句后主要的控制选项

选项

意义

OUTEST=SAS数据集

输出有关模型的参数估计和选择的统计量到指定SAS数据集中

OUTSSCP=SAS数据集

把平方和及叉积矩阵输出到TYPE=SSCP的数据集中

USSCP

输出用在该过程中的所有变量的平方和及叉积矩阵

ALL

输出所有内容

NOPRINT

不输出任何内容

MODEL语句后主要的控制选项

选项

意义

确定变量筛选办法，依次表示全部变量进入法NONE、前进法FORWARD、后退法BACKWARD、逐步筛选法STEPWISE（前进法与后退法的结合）、最大R2增量法MAXR、最小R2增量法MINR、R2选择法RSQUARE、MALLOW'SCP选择法CP、修正R2选择法ADJRSQ

SPEC

进行异方差检验

ACOV

存在异方差时，输出参数β估计量的渐近协方差阵的估计

SLENTRY|SLE=显著性水平

规定变量进入方程的显著性水平

SLSTAY|SLS=剔除水平

规定从方程中剔除变量的显著性水平

INCLUDE=N

迫使前N个自变量进入模型

START=S

从含有MODEL语句中前S个自变量的模型开始，进行比较、选择过程（仅用于MAXR或MINR方法）

STOP=S

当找到最佳的S个变量模型之后，逐步回归便停止（仅用于MAXR或MINR方法）

P

计算各观测点上因变量的预测值

R

作残差分析，并给出因变量的预测值

CLI

计算各自变量对应的因变量的95％置信区间

CLM

计算各自变量对应的因变量预测值的95％置信区间

NOINT

指定回归方程不含截距项

STB

输出标准回归系数

COVB

输出回归系数估计的协方差（阵）估计

CORRB

输出回归系数估计的相关矩阵估计

MSE

输出误差项σ2的估计

RMSE

file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.png

输出

COLLIN

在未校正截距的情况下，诊断多重共线性，条件数越大越可能存在共线性

COLLINOINT

在校正截距的情况下，诊断多重共线性

TOL

计算共线性水平的容忍度，TOL值越小说明越可能与别的自变量存在共线性关系

VIF

输出变量间相关性的方差膨胀系数，VIF越大，说明可能存在共线性，TOL与VIF互为倒数

INFLUENCE

诊断异常点

I

打印（X′X）-1

XPX

输出模型的X′X叉积矩阵

SS1

打印顺序平方和

SS2

打印偏平方和

ALL

输出SAS系统分析的以下选择项的特性：XPX，SS1，SS2，STB，COVB，CORRB，SEQB，P，R，CLI，CLM，SPEC，ACOV，TOL，PCORR1，PCOR，R2，SCORR1，SCORR2

PARTIAL

给出每一回归变量的偏回归残差图

DW

计算一阶自相关检验的DURBIN-WATSON统计量

INFLUENCE选项后对异常点的诊断输出的主要统计量如表所示

诊断异常点的统计量
统计量	含义	“异常”的判别准则
LEVERAGE（HI）	杠杆率HI，第I次观测自变量的取值在模型中作用的量度（0≤HI≤1）	HI越大，则第I次观测在模型中的作用就越大
COOK'S D	COOK D统计量，对某一观测点引起回归影响大小的度量，用于异常点诊断	若D >50％，则可认为该观测点对模型的拟合有强烈影响
COVRATIO	协方差矩阵的行列式之比（去掉某一观测点后、前对比）	若\|COVRATIO\|≥3（自变量个数+I），则第I个观测点值得引起注意

OUTPUT语句：用于把一些计算结果输出到指定的数据集中，其后的关键字及其意义如表所示。

REG过程中使用的语句含义如下：

VAR语句——列出叉积矩阵中的变量，仅当定义选项OUTSSCP=SASDATASET时使用。

PLOT语句——绘制两变量的散点图。语句格式为：PLOT X*Y/选项。其中X和Y变量可为原始数据集中的变量或统计量关键字。注意：若变量是统计量关键字时需要在其后加上圆点“·”。

RESTRICT语句——要求计算条件最小二乘估计，语句定义的方程就是关于回归系数（用自变量表示）的等式，方程与方程间用逗号分隔。如以下语句：

MODEL Y=A1 A2 B1 B2;
RESTRICT A1+A2=1;

复制代码

表示在自变量A1和A2的系数和为1的条件下求回归系数的最小二乘估计。

TEST语句——要求进行条件显著性检验，其中条件方程是关于回归系数（用自变量表示）的等式，方程与方程间用逗号分隔。TEST语句一般不与RESTRICT语句同用。如以下语句：

MODEL Y=A1 A2 B1 B2;
TEST A1+A2=1;

复制代码

表示自变量A1和A2的系数和为1原假设条件下进行F检验。

交互式语句——可以直接在PROC REG过程中使用表列出的交互式语句。

交互式语句
语句	意义
ADD变量名列表	向模型中增加变量
DELETE变量名列表	删除原拟合模型中的有关变量
REFIT	重新拟合模型
PRINT	输出有关模型的相关信息

		自动登录	找回密码
密码			立即注册

REG过程

站长推荐 /1