CHIP数据如何对抽样调查数据进行加权?

7108yongji · 发表于 2018-1-4 10:09:30

1.为什么需要权重？

1.1 一个例子

对于一个包含三个省份的地区，总体人口数分别为1000人、2000人和3000人。但受调查过程限制，各省实际收集的样本数量分别为200、100和100。与总体相比，A省的抽样比例相对较高--20%。，B省为5%，C省最低--3.33%。假定省内抽样满足随机抽样过程，并根据调查信息得到三个省的样本平均收入一一5000元、4000元和3000元。现在需要推算全部地区的总体平均收入。

若不加权，由于A省样本占比相对较高，估计结果会偏向于A省情形，得到如下计算结果：

按样本数据(不加权):全部人口的样本平均收入= (5000*200+4000*100+3000*100)/4000=4250 元。

若按总体人口数据，总体平均收入应为：(5000*1000+4000*2000+3000*3000)/6000 = 3666.67元。可见，不加权的样本平均收入存在明显高估。

后者结果实际上是在样本数据基础上添加了一个地区人口权重，这个权重等于各省总体人口数与样本人口数的比值。

总体平均收入=(5000*200*5+4000*100*20+3000*100*30)/(200*5+100*20+100*30)=3666.67元。

表1：一个例子

	A省	B省	C省	全部
总体人口数	1000	2000	3000	6000
样本人口数	200	100	100	400
倍数（总体/样本）	5	20	30	15
平均收入	5000	4000	3000	？

1.CHIP数据的加权建议

以上案例仅仅反应了样本数据在地区结构上与总体数据存在差距，因而需要权重进行调整。实际抽样调查中，出现偏差的原因不一定仅来自于地区人口分布差异，还可能来自性别、年龄、教育、民族等人口属性，也可能来自多重抽样造成的样本人口分布问题等。不过，在人口属性上对样本进行权重调整的情况并不多见，主要受限于数据的缺失。在这样的情况下，权重调整仅限于特定研究者认为重要的属性上。此外，样本权重有针对个人的权重和针对户的权重，本文仅仅讨论个人权重。

CHIP数据的抽样过程采取分层方式：首先将全国所有地区分为东、中、西三个地区（部分年份是分为直辖市、东、中、西)其次在各地区内抽选代表性省份；然后在省份内抽选代表性县和调查户。在1988年和1995年的调查中，城镇和农村样本是分开抽样的；2002年和2007年城镇、农村和流动人口是分幵抽样的。所以，CHIP权重需要区分城镇、农村和流动人口。这里的流动人口仅指“农村-城镇”流动人口，在某些情形下，流动人口会被归为城镇人口的一部分。

由于CHIP样本数据在各地区和城乡之间的人口分布很可能与总体存在差异，若不进行加权，CHIP数据结果很可能不能反映全国总体。我们建议，在需要考察总体代表性的问题中对CHIP数据进行加权，并重点考虑地区和城乡之间的人口结构差异；在必要的情况下，需要考虑流动人口的权重。

2.如何计算权重？

理论上，权重的计算有两种思路：

从抽样过程直接计算权重。在抽样设计中，若有意增加或减少了某类人群的样本规模，需要给予适当权重纠正这部分群体对总体的影响；

从样本数据和总体数据的差异推算权重。根据总体和样本关键属性的分布差异，给予不同样本适当的权重，使得样本数据能够充分代表总体。

本文主要介绍后者的计算方法。这里最主要是从额外渠道获取总体人口信息，样本信息可以通过数据直接汇总统计得到。每位研究人员所使用的最终样本数据可能存在差异，例如因为某些指标缺失值需要删除一部分样本，导致最终样本数量减少。因而，即使是同一套数据，不同研究人员的样本数据可能不同，权重也会不完全相同。但是需要注意，若是去除了特定属性值的样本，对应的总体数据也必须按相同规则下进行筛选。例如若仅保留16-60周岁的样本个体，此时的总体数据也必须是16-60周岁的人口。根据CHIP数据的特殊性，我们主要考察两类权重：城乡加地区权重和城乡加地区加省份权重。

2.1城乡加地区权重

城乡权重与地区权重的交叉权重，即每个地区再区分农村、城镇和流动人口。

计算过程：

将所有地区划分为3个片区--东部、中部、西部，相应片区的权重根据该片区内全部总体人口和样本人口数确定。

嘉定，全国城镇、农村和流动人口的总体人口数为N k,t (k∈{城镇，农村，流动人口}）

各片区的总体人口数是N k,t,i (i=1,2,3);

第i个片区内第j个省份的总体人口数为N k,t,i,j（i∈J t,i，J t,i表示第t年数据第i片区内的样本省份编号）；

第i个片区第j个省份的样本人口数为n k,t,i,j

那么，第i个片区的人口权重为：

3.如何使用权重？

3.1个人层面数据使用个人层面权重，得到个人层面统计量估计值

最终使用的权重：weight，其中weight表示个人层面权重。

如stata中的命令 sum income [aw=weight]

3.2家庭层面数据使用个人层面权重，得到个人层面统计量固执

最终使用的权重：nhh*weight，其中nhh表示家庭人口数，weight表示个人层面权重。

如 stata中的命令：sum incom [aw=nhh*weight]

4.2007年和2013年的总体人口数（供参考）

总体人口数据中最难确定的是总体流动人口规模。表2中的流动人口数据来自2005年1%人口抽样调查和2010年人口普查。2007年、2013年分别使用由2005年1%人口抽样调查、2010年人口普查数据得到的流动人口相对总人口比重；全国总人口分别采用《中国统计年鉴2008》和《中国统计年鉴2014》公布的2007、、2013年全国总人口数。流动人口数=流动人口相对总人口比重*全国总人口数

表2：城乡加地区人口数

		2007				2013
		农村人口	城镇户籍人口	流动人口	全国	农村人口	城镇户籍人口	流动人口	全国
绝对数：亿人	东部	2.3118	2.3825	0.4832	5.1775	2.0749	2.7143	0.8316	5.6208
	中部	2.4425	1.6214	0.1208	4.1847	2.01482	1.8682	0.2507	4.2671
	西部	2.2883	1.2131	0.1284	3.6298	1.9791	1.4002	0.2842	3.6635
	全国	7.0426	5.217	0.7324	12.992	6.2022	5.9827	1.3665	13.5514
比重：%	东部	17.7940	18.3382	3.7192	39.8514	15.3113	20.0297	6.1366	41.4776
	中部	18.8000	12.4800	0.9298	27.9387	14.6044	10.3325	2.0972	31.4883
	西部	17.6131	9.3373	0.9883	27.9387	14.6044	10.3325	2.0972	27.0341
	全国	54.2072	40.1555	5.6373	100.0000	45.7680	44.1482	10.0838	100.0000

		自动登录	找回密码
密码			立即注册

[人口] CHIP数据如何对抽样调查数据进行加权?

站长推荐 /1