设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2532|回复: 0

[人口] CHIP数据如何对抽样调查数据进行加权?

[复制链接]

9

主题

1万

金钱

1万

积分

资深用户

发表于 2018-1-4 10:09:30 | 显示全部楼层 |阅读模式

1.为什么需要权重?

1.1 一个例子

对于一个包含三个省份的地区,总体人口数分别为1000人、2000人和3000人。但受 调查过程限制,各省实际收集的样本数量分别为200、100和100。与总体相比,A省的抽 样比例相对较高--20%。,B省为5%,C省最低--3.33%。假定省内抽样满足随机抽样过程,并根据调查信息得到三个省的样本平均收入一一5000元、4000元和3000元。现在需 要推算全部地区的总体平均收入。

若不加权,由于A省样本占比相对较高,估计结果会偏向于A省情形,得到如下计算结果:

按样本数据(不加权):全部人口的样本平均收入= (5000*200+4000*100+3000*100)/4000=4250 元。

若按总体人口数据,总体平均收入应为:(5000*1000+4000*2000+3000*3000)/6000 = 3666.67元。可见,不加权的样本平均收入存在明显高估。

后者结果实际上是在样本数据基础上添加了一个地区人口权重,这个权重等于各省总体 人口数与样本人口数的比值。

总体平均收入=(5000*200*5+4000*100*20+3000*100*30)/(200*5+100*20+100*30)=3666.67元。

表1:一个例子



A省
B省
C省
全部
总体人口数
1000
2000
3000
6000
样本人口数
200
100
100
400
倍数(总体/样本)
5
20
30
15
平均收入
5000
4000
3000

1.CHIP数据的加权建议

以上案例仅仅反应了样本数据在地区结构上与总体数据存在差距,因而需要权重进行调 整。实际抽样调查中,出现偏差的原因不一定仅来自于地区人口分布差异,还可能来自性别、 年龄、教育、民族等人口属性,也可能来自多重抽样造成的样本人口分布问题等。不过,在 人口属性上对样本进行权重调整的情况并不多见,主要受限于数据的缺失。在这样的情况下, 权重调整仅限于特定研究者认为重要的属性上。此外,样本权重有针对个人的权重和针对 户的权重,本文仅仅讨论个人权重。

CHIP数据的抽样过程采取分层方式:首先将全国所有地区分为东、中、西三个地 区(部分年份是分为直辖市、东、中、西)其次在各地区内抽选代表性省份;然后在 省份内抽选代表性县和调查户。在1988年和1995年的调查中,城镇和农村样本是分开 抽样的;2002年和2007年城镇、农村和流动人口是分幵抽样的。所以,CHIP权重需 要区分城镇、农村和流动人口。这里的流动人口仅指“农村-城镇”流动人口,在某些 情形下,流动人口会被归为城镇人口的一部分。

由于CHIP样本数据在各地区和城乡之间的人口分布很可能与总体存在差异,若不进行加权,CHIP数据结果很可能不能反映全国总体。我们建议,在需要考察总体代表 性的问题中对CHIP数据进行加权,并重点考虑地区和城乡之间的人口结构差异;在必 要的情况下,需要考虑流动人口的权重。

2.如何计算权重?

理论上,权重的计算有两种思路:

从抽样过程直接计算权重。在抽样设计中,若有意增加或减少了某类人群的样本规模, 需要给予适当权重纠正这部分群体对总体的影响;

从样本数据和总体数据的差异推算权重。根据总体和样本关键属性的分布差异,给予不 同样本适当的权重,使得样本数据能够充分代表总体。

本文主要介绍后者的计算方法。这里最主要是从额外渠道获取总体人口信息,样本信息 可以通过数据直接汇总统计得到。每位研究人员所使用的最终样本数据可能存在差异,例如 因为某些指标缺失值需要删除一部分样本,导致最终样本数量减少。因而,即使是同一套数 据,不同研究人员的样本数据可能不同,权重也会不完全相同。但是需要注意,若是去除了 特定属性值的样本,对应的总体数据也必须按相同规则下进行筛选。例如若仅保留16-60周 岁的样本个体,此时的总体数据也必须是16-60周岁的人口。根据CHIP数据的特殊性,我们主要考察两类权重:城乡加地区权重和城乡加地区加省份权重。

2.1城乡加地区权重

城乡权重与地区权重的交叉权重,即每个地区再区分农村、城镇和流动人口。

计算过程:

将所有地区划分为3个片区--东部、中部、西部,相应片区的权重根据该片区内全部总体人口和样本人口数确定。

嘉定,全国城镇、农村和流动人口的总体人口数为N k,t (k∈{城镇,农村,流动人口})

各片区的总体人口数是N k,t,i (i=1,2,3);

第i个片区内第j个省份的总体人口数为N k,t,i,j(i∈J t,i,J t,i表示第t年数据第i片区内的样本省份编号);

第i个片区第j个省份的样本人口数为n k,t,i,j

那么,第i个片区的人口权重为:

1.jpg

3.如何使用权重?

3.1个人层面数据使用个人层面权重,得到个人层面统计量估计值

最终使用的权重:weight,其中weight表示个人层面权重。

如stata中的命令 sum income [aw=weight]

3.2家庭层面数据使用个人层面权重,得到个人层面统计量固执

最终使用的权重:nhh*weight,其中nhh表示家庭人口数,weight表示个人层面权重。

如 stata中的 命令:sum incom [aw=nhh*weight]

4.2007年和2013年的总体人口数(供参考)

总体人口数据中最难确定的是总体流动人口规模。表2中的流动人口数据来自2005年1%人口抽样调查和2010年人口普查。2007年、2013年分别使用由2005年1%人口抽样调查、2010年人口普查数据得到的流动人口相对总人口比重;全国总人口分别采用《中国统计年鉴2008》和《中国统计年鉴2014》 公布的2007、、2013年全国总人口数。流动人口数=流动人口相对总人口比重*全国总人口数

表2:城乡加地区人口数

2007
2013


农村人口
城镇户籍人口
流动人口
全国
农村人口
城镇户籍人口
流动人口
全国
绝对数:亿人
东部
2.3118
2.3825
0.4832
5.1775
2.0749
2.7143
0.8316
5.6208
中部
2.4425
1.6214
0.1208
4.1847
2.01482
1.8682
0.2507
4.2671
西部
2.2883
1.2131
0.1284
3.6298
1.9791
1.4002
0.2842
3.6635
全国
7.0426
5.217
0.7324
12.992
6.2022
5.9827
1.3665
13.5514
比重:%
东部
17.7940
18.3382
3.7192
39.8514
15.3113
20.0297
6.1366
41.4776
中部
18.8000
12.4800
0.9298
27.9387
14.6044
10.3325
2.0972
31.4883
西部
17.6131
9.3373
0.9883
27.9387
14.6044
10.3325
2.0972
27.0341
全国 54.207240.1555 5.6373100.000045.768044.148210.0838100.0000



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表