REG过程是所有回归分析过程中使用最普遍的一种。在过程中用户可应用MODEL语句建立用户需要的线性模型,REG过程提供9种选择最佳回归模型的方法,生成数据的散点图和多种统计量;产生部分回归诊断图,并进行共线性诊断;输出预测值、误差、置信区间及向量内成绩矩阵等,并可将这些分析结果存在一个SAS数据集中。
REG过程的一般使用格式如下: - PROC REG DATA=SAS数据集;
- MODEL因变量=自变量名列;
- VAR变量列表;
- OUTPUT OUT=数据集名;
- PLOT绘图表达式;
- WEIGHT变量名;
- FREQ变量名;
- BY变量名;
- RESTRICT方程1,方程2,…;
- TEST方程1,方程2,…;
- RUN;
复制代码MODEL语句必须定义,其他语句用户可根据情况选择。REG过程某些语句后的控制选项如表所示。 PROCREG语句后主要的控制选项 | 选项 | 意义 | OUTEST=SAS数据集 | 输出有关模型的参数估计和选择的统计量到指定SAS数据集中 | OUTSSCP=SAS数据集 | 把平方和及叉积矩阵输出到TYPE=SSCP的数据集中 | USSCP | 输出用在该过程中的所有变量的平方和及叉积矩阵 | ALL | 输出所有内容 | NOPRINT | 不输出任何内容 | | | MODEL语句后主要的控制选项 | 选项 | 意义 | SELECTION=NONE|
FORWARD|BACKWARD|STEPWISE
|MAXR|
|MAXR|
|ADJRSQ | 确定变量筛选办法,依次表示全部变量进入法NONE、前进法FORWARD、后退法BACKWARD、逐步筛选法STEPWISE(前进法与后退法的结合)、最大R2增量法MAXR、最小R2增量法MINR、R2选择法RSQUARE、MALLOW'SCP选择法CP、修正R2选择法ADJRSQ | SPEC | 进行异方差检验 | ACOV | 存在异方差时,输出参数β估计量的渐近协方差阵的估计 | SLENTRY|SLE=显著性水平 | 规定变量进入方程的显著性水平 | SLSTAY|SLS=剔除水平 | 规定从方程中剔除变量的显著性水平 | INCLUDE=N | 迫使前N个自变量进入模型 | START=S | 从含有MODEL语句中前S个自变量的模型开始,进行比较、选择过程(仅用于MAXR或MINR方法) | STOP=S | 当找到最佳的S个变量模型之后,逐步回归便停止(仅用于MAXR或MINR方法) | P | 计算各观测点上因变量的预测值 | R | 作残差分析,并给出因变量的预测值 | CLI | 计算各自变量对应的因变量的95%置信区间 | CLM | 计算各自变量对应的因变量预测值的95%置信区间 | NOINT | 指定回归方程不含截距项 | STB | 输出标准回归系数 | COVB | 输出回归系数估计的协方差(阵)估计 | CORRB | 输出回归系数估计的相关矩阵估计 | MSE | 输出误差项σ2的估计 | RMSE | file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.png | COLLIN | 在未校正截距的情况下,诊断多重共线性,条件数越大越可能存在共线性 | COLLINOINT | 在校正截距的情况下,诊断多重共线性 | TOL | 计算共线性水平的容忍度,TOL值越小说明越可能与别的自变量存在共线性关系 | VIF | 输出变量间相关性的方差膨胀系数,VIF越大,说明可能存在共线性,TOL与VIF互为倒数 | INFLUENCE | 诊断异常点 | I | 打印(X′X)-1 | XPX | 输出模型的X′X叉积矩阵 | SS1 | 打印顺序平方和 | SS2 | 打印偏平方和 | ALL | 输出SAS系统分析的以下选择项的特性:XPX,SS1,SS2,STB,COVB,CORRB,SEQB,P,R,CLI,CLM,SPEC,ACOV,TOL,PCORR1,PCOR,R2,SCORR1,SCORR2 | PARTIAL | 给出每一回归变量的偏回归残差图 | DW | 计算一阶自相关检验的DURBIN-WATSON统计量 |
INFLUENCE选项后对异常点的诊断输出的主要统计量如表所示 诊断异常点的统计量 | | 统计量 | 含义 | “异常”的判别准则 | LEVERAGE(HI) | 杠杆率HI,第I次观测自变量的取值在模型中作用的量度(0≤HI≤1) | HI越大,则第I次观测在模型中的作用就越大 | COOK'S D | COOK D统计量,对某一观测点引起回归影响大小的度量,用于异常点诊断 | 若D >50%,则可认为该观测点对模型的拟合有强烈影响 | COVRATIO | 协方差矩阵的行列式之比(去掉某一观测点后、前对比) | 若|COVRATIO|≥3(自变量个数+I),则第I个观测点值得引起注意 |
OUTPUT语句:用于把一些计算结果输出到指定的数据集中,其后的关键字及其意义如表所示。
REG过程中使用的语句含义如下: VAR语句——列出叉积矩阵中的变量,仅当定义选项OUTSSCP=SASDATASET时使用。 PLOT语句——绘制两变量的散点图。语句格式为:PLOT X*Y/选项。其中X和Y变量可为原始数据集中的变量或统计量关键字。注意:若变量是统计量关键字时需要在其后加上圆点“·”。 RESTRICT语句——要求计算条件最小二乘估计,语句定义的方程就是关于回归系数(用自变量表示)的等式,方程与方程间用逗号分隔。如以下语句: - MODEL Y=A1 A2 B1 B2;
- RESTRICT A1+A2=1;
复制代码表示在自变量A1和A2的系数和为1的条件下求回归系数的最小二乘估计。 TEST语句——要求进行条件显著性检验,其中条件方程是关于回归系数(用自变量表示)的等式,方程与方程间用逗号分隔。TEST语句一般不与RESTRICT语句同用。如以下语句: - MODEL Y=A1 A2 B1 B2;
- TEST A1+A2=1;
复制代码表示自变量A1和A2的系数和为1原假设条件下进行F检验。 交互式语句——可以直接在PROC REG过程中使用表列出的交互式语句。
交互式语句 | 语句 | 意义 | ADD变量名列表 | 向模型中增加变量 | DELETE变量名列表 | 删除原拟合模型中的有关变量 | REFIT | 重新拟合模型 | PRINT | 输出有关模型的相关信息 |
|