vooper 发表于 2018-8-27 10:01:28

拟合优度检验

基本原理:正确理解列联表的构成是进行列联分析的基础。在具体介绍列联表之前首先介绍本章两个重要的名词。
类别变量:类别变量取值为不连贯的数字。如名义变量sex(取值为Female、Male),次序变量School(取值为0——本科、1——硕士、2——博士),区间变量Temperature(取值为37℃~37.5℃、37.5℃~38℃),绝对变量number(班级人数)。
类别数据:类别数据是来自多个观测在一个(或多个)类别变量上的取值。若类别数据来自观察体在一个类别变量上的数值时,可画出次数分配表;若类别数据来自观测在两个类别变量上的数据时,可用二维列联表表示,表格矩阵的行表示第一个变量所取的水平,列表示另一变量所取的水平;若类别数据来自两个以上的类别变量,用多维列联表或分观测表示。
列联表是两个或两个以上的类别变量交叉分组后形成的频数分布表,包括行变量、列变量及分层变量。一般行变量是分类变量,列变量是观测变量,如调查不同学历水平的人群对“是否继续实行计划生育”持有的态度,行变量设置为学历分类,列变量设置为对这一论题持有的态度。
拟合优度检验主要用于检验类别间的频数是否满足一定的比例分布,如检验某地区的男女比是否为1:1的步骤如下:
(1)提出假设:H 0 :n 1 :n 2 ;H 1 :n 1 :n 2 ≠1。
(2)计算检验统计量:,其中f i (i 的取值为1和2,分别代表男性和女性,则c =2)代表列联表中第i 列的实际频数,e i 代表列联表中第i 列的期望频数(即在原假设下计算出的频数,在本例中为总人数的一半),统计量的自由度为(c -1)=1。
(3)下结论:根据显著性水平α 和自由度查出临界值,若则拒绝原假设;若,则接受原假设。
在实际应用中可将两类推广到多类,将检验1:1比例推广到检验特定的比例分布,本实验将应用SAS的FREQ过程进行特定比例的拟合优度检验。
检验各年龄阶层人口数是否满足特定分布:例:已知第五次人口普查不同年龄阶段的人口分布比和第六次人口普查不同年龄阶层的人口分布(如表所示),试检验第六次人口普查不同年龄阶层人口分布是否与第五次人口普查一致?
编写程序如下所示:data chap8.population;    /*新建包含第六次人口普查不同年龄阶层的人口分布数据集*/
input age$ dis@@;
cards;
A222459737   B939616410   C58816996   D118831709
;
run;
proc freq data=chap8.populationorder=data;
/*调用freq过程,定义类别按变量值进入到数据集中的顺序排列*/
tables age/nocum chisq testp=(22.966.632.87.09);
/*对变量age进行一维拟合优度检验,定义检验比例为22.9%: 66.63%: 2.8%: 7.09%;
不输出累计频数和百分比*/
weight dis;         /*定义加权变量*/
run;选择Run|Submit命令提交程序,以下分析输出结果:表为第六次人口普查后各年龄阶段的人口出现频率(Frequency)、分布百分比(Percent)及需要检验的百分比(Test Percent)。
一维分布表
ageFrequencyPercentTest Percent
A2.22E+0816.622.9
B9.40E+0870.1466.63
C588169964.392.8
D1.19E+088.877.09
表为对第六次人口普查不同年龄阶段人口分布是否满足第五次人口普查分布百分比的λ2 检验结果,检验P值小于0.0001,则拒绝原假设,即第六次和第五次人口普查人群年龄分布不同。
卡方分布检验结果
Chi-SquareTest for Specified Proportions
Chi-Square43739980
DF3
Pr>ChiSq<.0001

页: [1]
查看完整版本: 拟合优度检验