1.为什么需要权重? 1.1 一个例子 对于一个包含三个省份的地区,总体人口数分别为1000人、2000人和3000人。但受 调查过程限制,各省实际收集的样本数量分别为200、100和100。与总体相比,A省的抽 样比例相对较高--20%。,B省为5%,C省最低--3.33%。假定省内抽样满足随机抽样过程,并根据调查信息得到三个省的样本平均收入一一5000元、4000元和3000元。现在需 要推算全部地区的总体平均收入。 若不加权,由于A省样本占比相对较高,估计结果会偏向于A省情形,得到如下计算结果: 按样本数据(不加权):全部人口的样本平均收入= (5000*200+4000*100+3000*100)/4000=4250 元。 若按总体人口数据,总体平均收入应为:(5000*1000+4000*2000+3000*3000)/6000 = 3666.67元。可见,不加权的样本平均收入存在明显高估。
后者结果实际上是在样本数据基础上添加了一个地区人口权重,这个权重等于各省总体 人口数与样本人口数的比值。 总体平均收入=(5000*200*5+4000*100*20+3000*100*30)/(200*5+100*20+100*30)=3666.67元。 表1:一个例子
| A省 | B省 | C省 | 全部 | 总体人口数 | 1000 | 2000 | 3000 | 6000 | 样本人口数 | 200 | 100 | 100 | 400 | 倍数(总体/样本) | 5 | 20 | 30 | 15 | 平均收入 | 5000 | 4000 | 3000 | ? |
1.CHIP数据的加权建议 以上案例仅仅反应了样本数据在地区结构上与总体数据存在差距,因而需要权重进行调 整。实际抽样调查中,出现偏差的原因不一定仅来自于地区人口分布差异,还可能来自性别、 年龄、教育、民族等人口属性,也可能来自多重抽样造成的样本人口分布问题等。不过,在 人口属性上对样本进行权重调整的情况并不多见,主要受限于数据的缺失。在这样的情况下, 权重调整仅限于特定研究者认为重要的属性上。此外,样本权重有针对个人的权重和针对 户的权重,本文仅仅讨论个人权重。 CHIP数据的抽样过程采取分层方式:首先将全国所有地区分为东、中、西三个地 区(部分年份是分为直辖市、东、中、西)其次在各地区内抽选代表性省份;然后在 省份内抽选代表性县和调查户。在1988年和1995年的调查中,城镇和农村样本是分开 抽样的;2002年和2007年城镇、农村和流动人口是分幵抽样的。所以,CHIP权重需 要区分城镇、农村和流动人口。这里的流动人口仅指“农村-城镇”流动人口,在某些 情形下,流动人口会被归为城镇人口的一部分。 由于CHIP样本数据在各地区和城乡之间的人口分布很可能与总体存在差异,若不进行加权,CHIP数据结果很可能不能反映全国总体。我们建议,在需要考察总体代表 性的问题中对CHIP数据进行加权,并重点考虑地区和城乡之间的人口结构差异;在必 要的情况下,需要考虑流动人口的权重。 2.如何计算权重? 理论上,权重的计算有两种思路: 从抽样过程直接计算权重。在抽样设计中,若有意增加或减少了某类人群的样本规模, 需要给予适当权重纠正这部分群体对总体的影响; 从样本数据和总体数据的差异推算权重。根据总体和样本关键属性的分布差异,给予不 同样本适当的权重,使得样本数据能够充分代表总体。 本文主要介绍后者的计算方法。这里最主要是从额外渠道获取总体人口信息,样本信息 可以通过数据直接汇总统计得到。每位研究人员所使用的最终样本数据可能存在差异,例如 因为某些指标缺失值需要删除一部分样本,导致最终样本数量减少。因而,即使是同一套数 据,不同研究人员的样本数据可能不同,权重也会不完全相同。但是需要注意,若是去除了 特定属性值的样本,对应的总体数据也必须按相同规则下进行筛选。例如若仅保留16-60周 岁的样本个体,此时的总体数据也必须是16-60周岁的人口。根据CHIP数据的特殊性,我们主要考察两类权重:城乡加地区权重和城乡加地区加省份权重。 2.1城乡加地区权重 城乡权重与地区权重的交叉权重,即每个地区再区分农村、城镇和流动人口。 计算过程: 将所有地区划分为3个片区--东部、中部、西部,相应片区的权重根据该片区内全部总体人口和样本人口数确定。 嘉定,全国城镇、农村和流动人口的总体人口数为N k,t (k∈{城镇,农村,流动人口}) 各片区的总体人口数是N k,t,i (i=1,2,3); 第i个片区内第j个省份的总体人口数为N k,t,i,j(i∈J t,i,J t,i表示第t年数据第i片区内的样本省份编号); 第i个片区第j个省份的样本人口数为n k,t,i,j 那么,第i个片区的人口权重为:
3.如何使用权重? 3.1个人层面数据使用个人层面权重,得到个人层面统计量估计值 最终使用的权重:weight,其中weight表示个人层面权重。 如stata中的命令 sum income [aw=weight] 3.2家庭层面数据使用个人层面权重,得到个人层面统计量固执 最终使用的权重:nhh*weight,其中nhh表示家庭人口数,weight表示个人层面权重。 如 stata中的 命令:sum incom [aw=nhh*weight] 4.2007年和2013年的总体人口数(供参考) 总体人口数据中最难确定的是总体流动人口规模。表2中的流动人口数据来自2005年1%人口抽样调查和2010年人口普查。2007年、2013年分别使用由2005年1%人口抽样调查、2010年人口普查数据得到的流动人口相对总人口比重;全国总人口分别采用《中国统计年鉴2008》和《中国统计年鉴2014》 公布的2007、、2013年全国总人口数。流动人口数=流动人口相对总人口比重*全国总人口数 表2:城乡加地区人口数 | 2007 | 2013 |
|
| 农村人口
| 城镇户籍人口
| 流动人口
| 全国
| 农村人口
| 城镇户籍人口
| 流动人口
| 全国
| 绝对数:亿人
| 东部
| 2.3118
| 2.3825
| 0.4832
| 5.1775
| 2.0749
| 2.7143
| 0.8316
| 5.6208
| 中部
| 2.4425
| 1.6214
| 0.1208
| 4.1847
| 2.01482
| 1.8682
| 0.2507
| 4.2671
| 西部
| 2.2883
| 1.2131
| 0.1284
| 3.6298
| 1.9791
| 1.4002
| 0.2842
| 3.6635
| 全国
| 7.0426
| 5.217
| 0.7324
| 12.992
| 6.2022
| 5.9827
| 1.3665
| 13.5514
| 比重:%
| 东部
| 17.7940
| 18.3382
| 3.7192
| 39.8514
| 15.3113
| 20.0297
| 6.1366
| 41.4776
| 中部
| 18.8000
| 12.4800
| 0.9298
| 27.9387
| 14.6044
| 10.3325
| 2.0972
| 31.4883
| 西部
| 17.6131
| 9.3373
| 0.9883
| 27.9387
| 14.6044
| 10.3325
| 2.0972
| 27.0341
| 全国 | 54.2072 | 40.1555 | 5.6373 | 100.0000 | 45.7680 | 44.1482 | 10.0838 | 100.0000 |
|