抽样方法说明
一、城镇居民问卷调查抽样方法
在调查城市,城镇居民调查样本的选取分为社区抽取和住户抽取两个阶段,具体操作方法如下:
(一)采用PPS方法抽取调查社区
PPS方法是指中选概率与规模成比例的抽样方法。本次调查,各城市采用社区中选概率与社区常住人口数成比例的方法抽取一定数量(不少于部里指定数量)的社区。具体操作步骤如下:
1.准备抽样框
以全市(只包括城区,不含市辖的市和县)社区名单为抽样框。在Excel表格中准备社区名单,名单包括社区名称、社区常住人口数、联系人、联系电话、详细地址等信息。
2.社区排序
将社区按常住人口数从大到小排序,逐个计算累计常住人口数,并将社区依次编号1—N(N为社区总数)。
例1 调查社区抽取表
社区编号 | 社区名称 | 所处位置 | 常住人口数 | 累计常住人口数 | 抽样点 |
1 | 4717 | 4717 | * | ||
2 | 1861 | 6578 | 5484 | ||
3 | 1544 | 8122 | |||
4 | 1318 | 9440 | |||
5 | 1165 | 10605 | 9657 | ||
6 | 9 | 11569 | |||
7 | 853 | 12422 | |||
8 | 684 | 13106 | |||
9 | 674 | 13780 | |||
10 | 631 | 14411 | 13830 | ||
11 | 614 | 15025 | |||
12 | 549 | 15574 | |||
13 | 513 | 16087 | |||
14 | 478 | 16565 | |||
15 | 475 | 17040 | |||
16 | 466 | 17506 | |||
17 | 431 | 17937 | |||
18 | 380 | 18317 | 18003 | ||
19 | 377 | 18694 | |||
20 | 370 | 190 | |||
21 | 359 | 19423 | |||
22 | 357 | 19780 | |||
23 | 335 | 20115 | |||
24 | 293 | 20408 | |||
25 | 282 | 20690 | |||
26 | 281 | 20971 | |||
27 | 274 | 21245 | |||
28 | 269 | 21514 | |||
29 | 265 | 21779 | |||
30 | 262 | 22041 | |||
31 | 253 | 22294 | 22176 | ||
32 | 234 | 22528 | |||
33 | 227 | 22755 | |||
34 | 223 | 22978 | |||
35 | 194 | 23172 | |||
36 | 194 | 23366 | |||
37 | 163 | 23529 | |||
38 | 157 | 23686 | |||
39 | 144 | 23830 | |||
40 | 124 | 23954 | |||
41 | 124 | 24078 | |||
42 | 118 | 24196 | |||
43 | 113 | 24309 | |||
44 | 108 | 24417 | |||
45 | 107 | 24524 | |||
46 | 102 | 24626 | |||
47 | 98 | 24724 | |||
48 | 85 | 24809 | |||
49 | 77 | 24886 | |||
50 | 77 | 24963 | |||
51 | 76 | 25039 |
3.确定需要抽出的社区数
各调查城市为了增强本市调查的代表性,可以自行确定本市参与调查的社区数量,但不得低于部里指定的社区数量。
例1中,需要从51个社区中抽取6个社区进行调查。
4.计算抽样步距
抽样步距为全部社区常住人口总数除以需要抽出的社区数。计算公式为:
抽样步距=全部社区常住人口总数÷需要抽取的社区数
如果抽样步距不为整数,可以四舍五入取整。
例1中,抽样步距为25039/6 ≈ 4173。
5.确定备用随机数
确定备用随机数有两种办法(可以任选一种):
方法(1):公式法
在新建Excel表格中的任意位置输入公式:
=round(1+(L-1)*rand(),0)
其中,斜体加黑的L为上一个步骤中计算的抽样步距。
方法(2):查表法
在《随机数字表》中的任意位置开始连续选择数字(数字的个数与抽样步距的位数相同),得到一个随机数。如果这个随机数在1至抽样步距之间,就将它直接作为备用随机数。如果它大于抽样步距,就用它除以抽样步距所得的余数作为备用随机数。
随机数字表
例1中用查表法。《随机数字表》中的第6行第13列开始连续四个数字为9、1、1、3,组成随机数9113,9113除以4173得2余767,所以将767作为备用随机数。
6.确定抽样起点
在确定抽样起点前,先看是否有常住人口数大于抽样步距的社区。
如果有,将这些社区全部作为中选社区(调查社区),并将这些社区的常住人口合计数(它们中的最后一个社区所在行的累计常住人口数)与备用随机数之和作为抽样起点。
如果没有,直接将备用随机数作为抽样起点。
例1中,第一个社区的常住人口数为4717,大于4173。第一个社区中选。这里只有一个社区,抽样起点为第一个社区常住人口数与备用随机数之和,即4717+767=5484。
7.确定其他抽样点
第2个抽样点为“随机起点+抽样步距”;第3个抽样点为“第2个抽样点+抽样步距”;依此类推。
需要计算的抽样点的个数为需要抽取的社区数减去常住人口数大于抽样步距的社区数。例1中,需要抽取6个社区,有1个社区常住人口数大于抽样步距,需要计算5个抽样点。第1个抽样点就是抽样起点5484,第2-5个抽样点分别为9657、13830、18003、22176。
8.确定中选社区
如果抽样点(包括抽样起点)小于或等于第一个社区常住人口数,则第一个社区中选;若抽样点大于前n-1个社区的常住人口累计数而小于或等于前n个社区的常住人口累计数,则第n个社区中选。
例1中,抽样起点为5484,它大于第一个社区的常住人口数而小于前两个社区的累计常住人口数,抽样起点对应的中选社区为第二个社区。
第2个抽样点为9657,它大于前4个社区的常住人口累计数而小于前5个社区的常住人口累计数,因此,第5个社区中选。
按照同样的方法确定第3-5个抽样点对应的中选社区,它们的序号分别为10、18和31。至此,需要调查的6个社区全部被抽出。
注意:
(1)如果中选社区总数不足指定数量,从未中选社区中选取若干个社区,补足数量。
(2)各调查城市要严格按照上述方法抽取调查社区,保留全部抽样过程的工作底稿(调查社区抽取表),由省和部调查督导员检查后报部规划财务司备案。
(二)采用等距抽样方法抽取住户
本次调查要求每个社区要调查25户以上居民,且最少调查80人。因此,在抽取住户之前,要根据社区中户均人数确定实际要抽取的户数。如果户均人数在3.2人以上,抽取25户即可;如果户均人数不足3.2人,则要抽取的户数按以下公式计算:
抽取户数=80÷本社区户均人数
如果计算出来的抽取户数不为整数,采用进位法取整(不管小数部分大小,均进一位)。
下面以从社区中抽取30户居民为例,说明等距抽样的具体操作步骤:
1.准备住户抽样框
住户抽样框可用社区所有住宅(包括住人的地下室)的门牌号码登记表,也可用住户登记表,按顺序编号(从1—M,M为社区住宅或住户总数)。
2.确定步长
步长L=社区住户(住宅)总数M÷调查户数(30)。如果计算结果不是整数,则采用去尾法取整。如例2中34.125去尾取整后为34。
3.随机确定抽样起点
确定随机起点的方法有以下三种,可任选一种:
方法(1)抓阄法:准备L个大小相同的小纸片,在纸片上面分别写上1、2、…、L,揉成L个小纸球,将纸球放在杯子里并摇动杯子,从杯子里拿出1个纸球,展开看看上面的数字是什么,住宅(或住户)登记表上相应序号的住户就是第一个被抽中的住户(随机起点)。
方法(2)查表法:从随机数表中任意选择一个与步长L位数相同的数(必须是表中相邻的数字组成)。如果这个数小于步长L,则这个数就是随机起点;如果这个数大于步长L,则这个数除以步长L所得的余数为随机起点。
方法(3)公式法:在新建Excel表格中的任意位置输入公式:
=round(1+(L-1)*rand(),0)
其中,斜体加黑的L为上一个步骤中计算的抽样步距。
例2中采用查表法:随机数字表第9行第39列和第40列组成的数为66,66除以步长34的商为1余32,那么随机起点为32。
4.确定其他调查户
第二个被抽中的住户序号=随机起点(第一个被抽中的住户序号)+步长L,第三个被抽中的住户序号=随机起点+2×L,…,第n个被抽中的住户序号=随机起点+(n-1)×L。
5.抽取最后一个住户
在最后部分住户(不足L个,L为步长)中抽取住户的方法与第三步相同(抓纸球确定被抽中的住户)。最后有多少住户就准备多少纸球,抓中的纸球对应的住户被抽中。
例2 某社区有1365户居民,抽取住户的步骤如下:
1.准备抽样框
在Excel表格中准备住户名单,依次编号(1-1365)。
2.确定步长
步长L=社区住户(住宅)总数M÷30
=1365÷30=45.5(去尾取整数为45)
步长L确定为45。
3.确定随机起点
准备45个纸球,依次编号1-45,随机抽取一个(假定编号为32),第一个被抽中住户的编号为32,即随机起点为32。
4.确定其他调查户
第二个被抽中的住户序号=随机起点(第一个被抽中的住户序号)+步长L=32+45=77;
第三个被抽中的住户序号=随机起点+2×L=32+2×45=122;
第四个被抽中的住户序号=随机起点+3×L=32+3×45=167;
……
第30个被抽中的住户序号=随机起点+(30-1)×L=32+29×45=1337。
5.抽取最后一个住户
在最后部分住户中(不足L个,L与步长相等)抽取住户的方法与第三步相同(抓纸球确定被抽中的住户)。该社区共有1365户居民,步长(45)的30倍为1350。最后还有15个住户,准备15个纸球,编号分别为1351、1352、1353、…、1365。随机抽取一个,假定编号为1353,则最后一个被抽取的住户编号为1353。
这个社区共有31个住户被抽中,住户编号依次为:32、77、122、167、…、1337、1353。
注:第5步可以不做。不做第5步正好抽取30户,做了第五步则抽取了31户。
二、农民工调查抽样方法
在调查城市,农民工调查样本的选取分为企业抽取和农民工抽取两个阶段,具体操作方法如下:
(一)调查企业的抽取方法
各调查城市在抽取调查企业之前要准备抽样框(建议在Excel表格中进行)。抽样框是包括调查范围内所有企业单位的清单。这次调查的范围是调查城市的城区,不包括市辖的市和县。这次调查抽样框里的企业单位清单应至少包含企业名称、地址、联系电话、所属行业(门类)、农民工人数等项目,其中农民工人数是抽样时使用的辅助变量。
1.分行业汇总企业农民工人数
在调查城市,先将抽样框中的企业单位按行业分类汇总农民工人数,然后按照本市农民工的行业分布情况将1000个农民工等比例分配到各行业(按门类划分),并填报调查辅助材料2。各城市可以根据本地实际情况,将农民工人数少的行业合并为“其他行业”。
2.将企业单位按行业和农民工两个字段排序
以所属行业为主要关键字、农民工人数为次要关键字,对抽样框中的企业单位进行排序。
3.大型企业全部调查
各行业中,农民工人数大于或等于50人的大型企业全部选中。
4.中型企业等距抽样
各行业中,农民工人数在10人—50人的中型企业按10%的比例等距抽取,即每10个企业中抽取1个企业(每隔9个企业抽取1个企业)。
5.小企业不抽取或作为补充
(1)不抽取小企业的情况。如果在各行业能够从大、中型企业中抽足规定数量的农民工,就不抽取农民工人数在10人以下的小型企业。
(2)小企业作为补充的情况。如果在某个行业不能从大、中型企业中抽足规定数量的农民工,就抽取一定数量的小型企业(农民工人数在10人以下)作为补充,以补足调查农民工的数量。
(二)从企业中抽取农民工
在农民工人数大于15人的企业中,采用随机抽取或等距抽取15名农民工进行调查。具体抽样方法与前述住户抽取方法相似。在农民工人数小于或等于15人的企业中,所有的农民工都进行调查。