基本原理: 对二维列联表的行、列类别变量主要分析其独立性和相关度,独立性主要用λ 2 检验,一般的分析步骤如下。
(1)提出假设:H 0 :行、列类别变量独立;H 1 :行、列类别变量不独立。
(2)计算检验统计量:
,公式中的f ij 代表列联表中第i 行、第j 列类别的实际频数,e ij 代表列联表中第i 行、第j 列类别的期望频数(由行、列变量独立的前提计算得到),自由度为(r -1)(c -1)。
(3)进行决策:根据显著性水平α 和自由度(r -1)(c -1)查出临界值
,若
,则拒绝原假设;若
,则接受原假设。
在SAS系统中可应用FREQ过程以编程的方式和Analyst模块以菜单操作的方式完成独立性检验。
例:某市场调查公司想了解某地的城市成年人驾驶汽车的类型与他们居住地之间是否存在一定的联系,特随机抽取了546名成年驾驶者进行调查,得到结果如表所示,请问驾车类型和居住地是否独立? 居住地与驾车类型调查数据 | 居住区 | 驾车类型 | A | B | C | 1 | 52 | 64 | 26 | 2 | 69 | 63 | 32 | 3 | 50 | 45 | 28 | 4 | 45 | 53 | 19 |
编程法:
编写程序如下所示:- proc freq data=chap8.car_survey; /*调用freq过程*/
- tables area*car_type/chisq;
- /*定义列联表行变量为area,列变量为car_type,并输出卡方检验结果*/
- weight number; /*定义加权变量为number*/
- run;
复制代码 选择Run|Submit命令提交程序,以下分析输出结果:表为行变量为area、列变量为car_type的二维列联表。
每个单元格中从上至下依次为对应类型的频数、总百分比、行百分比和列百分比。表为独立性检验结果和衡量相关性的统计量,由于独立性检验的λ 2 检验、似然比λ 2 (likelihood Ratio Chi-Square)、Mantel-Haesszelλ 2 检验对应的检验P 值分别为0.6674、0.6785、0.8198,大于显著性水平0.05,则接受原假设,认为变量area和变量car_type是独立的,即人群驾驶的车辆类型分布在不同的地区分布没有显著的差异。同时Phi系数(Phi Coefficient)、因变系数(Contingency Coefficient)和克拉默值(Cramer's V)这些从皮尔逊λ 2 系数公式中衍生出来衡量相关关系的统计量的值都在0.08左右,同样说明变量area和car_type是独立的。
λ 2 检验结果 | Statistic | DF | Value | Prob | Chi-Square | 6 | 3.9948 | 0.6774 | Likelihood Ratio Chi-Square | 6 | 3.9865 | 0.6785 | Mantel-Haenszel Chi-Square | 1 | 0.0519 | 0.8198 | Phi Coefficient | | 0.0855 | | Contingency Coefficient | | 0.0852 | | Cramer's V | | 0.0605 | |
菜单法:
步骤一:选择Solutions|Analysis|Analyst命令,进入Analyst分析界面。
步骤二:打开"居住地与驾车类型调查数据"数据集。
步骤三:选择Statistics|Table Analysis命令,弹出如图所示对话框,单击变量area,再单击Row(行)按钮,将变量area选为行变量,用同样的方法将变量car_type选为列变量(Column),将变量number选进Cell Counts(单元格计数)。
单击Statistics(统计量)按钮,弹出如图所示对话框,选择Chi-square statistics,定义输出卡方统计量。若不希望输出频数表,可勾选表格下方的Print statistics only(仅输出统计量);若希望计算时不删除缺失值,可勾选Include missing values in calculations(计算时包含缺失值)。单击OK按钮保存设置,并返回上图所示对话框。单击OK按钮按钮则输出和编程方法一致的检验结果。
|