
摘要
针对题目所提要求,本文以中国人口的实际情况为背景,分析了近年来死亡率和出生率的变化趋势,建立了我国人口增长的短期预测模型;同时结合近年来中国人口发展出现的一些新特点,着重分析了老龄化进程、出生人口性别比、中国人口抚养比和总和生育率等因素对中国人口增长的影响,建立了中长期预测模型,较好地反映出我国人口的增长趋势。
为了对中国人口发展做短期的预测,通过近年来死亡率和出生率的变化趋势,建立GM(1,1)灰色模型,得出出生率和死亡率的短期预测。我们通过分析题目所给数据,提取出有效信息,计算归纳出2001年到2005年的出生率和死亡率,通过建立的模型对出生率和死亡率进行预测,较准确的估计出了人口增长的关键参数。利用公式来对短期内的总人数进行预测。建立的人口增长短期预测模型不仅符合中国人口的发展特点,而且简单易用,能在未知总人口数的情况下预测人口的相对发展变化,这一优点使得可以方便且准确的用于预测中国人口短期内的发展趋势。人口总数的短期预测如下:
| 实际值(万) | 预测值 | 相对误差 | |
| 2006 | 131448 | 0.218% | |
| 2007 | 132129 | 0.247% | |
| 2008 | 132802 | 0.277% |
论文最后对模型的优缺点进行了分析和评价:
●最主要的优点:将灰色模型用到人口预测中,不仅简单而且能达到比较准确的预测效果。
●最主要的缺点:GM(1,1)模型在其使用条件上存在着一定的,它使用于呈指数规律发展变化的系统进行预测。也就是说我们默认了人口的指数增长方式。
关键词:灰色模型 出生率 死亡率 人口预测
一、问题重述
中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一。根据已有数据,运用数学建模的方法,对中国人口做出分析和预测是一个重要问题。
近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化等因素,这些都影响着中国人口的增长。2007年初发布的《国家人口发展战略研究报告》(附录1) 还做出了进一步的分析。
关于中国人口问题已有多方面的研究,并积累了大量数据资料。附录2就是从《中国人口统计年鉴》上收集到的部分数据。
试从中国的实际情况和人口增长的上述特点出发,参考附录2中的相关数据(也可以搜索相关文献和补充新的数据),建立中国人口增长的数学模型,并由此对中国人口增长的中短期和长期趋势做出预测;特别要指出你们模型中的优点与不足之处。
二、问题分析
进行了如下的分析:
Step1: 首先,对于中短期的人口预测,我们可以利用公式计 算的出。(-第i年人口总数,-第i年的出生率,第i年的死亡率)
Step2: 为了得到上述式子中未知的出生率和死亡率,分别建立模型对其进行预测。
Step3: 对中长期的人口发展趋势的预测,我们发现影响人口发展的因素众多且不确定。例如,近年来中国人口发展中出现的一些新特点:老龄化进程加速、出生人口性别比持续升高以及乡村人口城镇化等。
Step4: 为了较好的反映出我国人口的增长趋势,我们要兼顾市镇乡人口分布、人口老龄化程度、人口抚养比、出生人口性别比以及孕龄妇女生育率的影响因素。我们首先对数据进行人口系统结构分析,结合上面的中国人口短期的预测,我们分别建立多变量灰色预测模型GM(1,3),GM(1,4)。
Step5:最后对各因素进行综合考虑分析,得出结论。
三、模型假设
1.假设附表中给的数据具有普遍意义,能很好的代表总体;
2.在中长期的人口预测分析中,我们不考虑人口素质、结构、分布问题;
3.在长期的人口预测分析中,我们假设影响人口增长的因素只有老龄化进程加速、出生人口性别比持续升高以及乡村人口城镇化。
四、符号设定
第i年中国人口总数
第i年的出生率
第i年的死亡率
参数向量
数据矩阵
数据向量
发展系数
灰色作用量
五、模型建立与求解
(一)、中短期人口增长趋势分析与预测
模型准备
GM(1,1)模型是关于数列预测的一个变量、一阶微分的灰色预测模型。GM(1,1)模型是基于灰色系统的理论思想,将离散变量连续化,用微分方程代替差分方程,按时间累加后所形成的新的时间序列呈现的规律可用一阶线性微分方程的解来逼近,用生成数序列代替原始时间序列,弱化原始时间序列的随机性,这样可以对变化过程作较长时间的描述,进而建立微分方程形式的模型. 其建模的实质是建立微分方程的系数,将时间序列转化为微分方程,通过灰色微分方程可以建立抽象系统的发展模型。
对于中长期的人口分析与预测,我们建立GM(1,1)模型,对中短期内每年的出生率和死亡率做出预测。则根据第k年的人口总数与第k+1年的人口总数的关系,就可以求出下一年的人口总数。以此类推,就可以对未来几年的人口总数做出预测。
根据所给的附表,计算出2001年到2005年的出生率和死亡率,见下表:
| 年份 | 死亡率 | 出生率 |
| 2001 | 0.0059342 | 0.011329 |
| 2002 | 0.0062436 | 0.010948 |
| 2003 | 0.0060979 | 0.010661 |
| 2004 | 0.0062232 | 0.010601 |
| 2005 | 0.0061843 | 0.009367 |
则中国各年份的死亡率序列如下:
5.1.1模型建立及求解
和数据向量
对做紧邻均值生成. 令,得
则数据矩阵及数据向量为
,
==
==
,
0.00085308=0.0062
根据预测公式,计算
-7.2653 + 7.2712
(1)根据预测公式,计算,得
={0.0059342,0.0121294,0.0183193,0.0245039,0.0306832}(=1, … ,5)
(2)累减生成序列,=1,2, … ,5
当时,取=0.0059342,取,
由得
通过预测,得到实际值与预测值如下表:
| 实际值 | 预测值 | 相对误差 | |
| 2001 | 0.0059342 | 0 | |
| 2002 | 0.0062436 | 0.775% | |
| 2003 | 0.0060979 | 1.509% | |
| 2004 | 0.0062232 | 0.620% | |
| 2005 | 0.0061843 | 0.0061793 | 0.081% |
我们可以利用此模型对中短期内的死亡率进行预测,具体结果如下表:
| 年份 | 2006 | 2007 | 2008 | 2009 | 2010 |
| 出生率 | 0.0061741 | 0.0061688 | 0.0061635 | 0.0061583 | 0.006153 |
={0.0059342,0.0121294,0.0183193,0.0245039,0.0306832}(=1, … ,5)
(2)累减生成序列,=1,2, … ,5
原始序列:=()
(3)计算绝对残差和相对残差序列
绝对残差序列:={0,0.0000484,0.000092,0.0000386,0.000005}
相对残差序列:={0,0.0078,0.0151,0.0062,0.0008}
相对残差不超过1.51%,模型精确度高。
(1) 计算序列与的绝对残差序列(k)
={0,0.0000484,0.000092, 0.0000386,0.000005}
min{(k) } = min{0,0.0000484,0.000092, 0.0000386,0.000005}= 0
max{(k) } = max{0,0.0000484,0.000092, 0.0000386,0.000005}= 0.000092
(2) 计算关联系数
由于只有两个序列(即一个参考序列,一个被比较序列)故不再寻求第二级最小差和最大差。
(3) 计算关联度
= 0.6533
r=0.6533是满足P=0.5时的检验准则r>0.6的。
(1)计算:=[0.0059342+0.0062436+0.0060979+0.0062232+0.0061843]=0.0061365
(2)计算 序列的均方差:
==0.0001262
=[]=0.0000281
(4)计算残差的均方差:
==0.00003725
(5)计算C:=0.00003725/0.0001262=0.2952
(6)计算小残差概率:=0.67450.0001261=0.00008505
{0.0000281,0.0000203,0.0000639,0.0000105,0.0000231}
所有都小于,故小残差概率{}=1,而同时C=0.2952<0.35,故模型-7.2653+7.2712合格。
5.2 各年份出生率的预测
模型建立
建立GM(1,1)模型,与死亡率的建模与解模的方法完全相同,最后得到出生率的预测模型为
0.0454= 0.0119
根据预测公式,计算
-0.25052 + 0.26185
最后代入得到相应的预测值。见下表:
| 实际值 | 预测值 | 相对误差 | |
| 2001 | 0.011329 | 0 | |
| 2002 | 0.010948 | 0.011111 | 1.4% |
| 2003 | 0.010661 | 0.403% | |
| 2004 | 0.010601 | 4.283% | |
| 2005 | 0.009367 | 0.0096969 | 3.522% |
我们可以利用此模型对中短期内的出生率进行预测,具体结果如下表:
| 年份 | 2006 | 2007 | 2008 | 2009 | 2010 |
| 出生率 | 0.0092669 | 0.0088559 | 0.0084632 | 0.0080878 | 0.0077291 |
根据第k年的人口总数与第k+1年的人口总数的关系,利用上面求出的各年的出生率和死亡率,代入计算可以求得中短期内各年份的人口总数。例如已知2005年的人口总数
以此类推,可计算出接下来的五年的人口总数,见下表:
| 实际值(万) | 预测值 | 相对误差 | |
| 2006 | 131448 | 0.218% | |
| 2007 | 132129 | 0.247% | |
| 2008 | 132802 | 0.277% | |
| 2009 | 133861 | 0.599% |
从上述预测结果来看,前三年的预测值与实际值的误差的相对误差稳定在0.3%以内,而第四年的预测值与实际值的相对误差达到0.599%,较之前的翻了一倍,说明第四年的预测已经不是很准。所以,我们认为GM(1,1)模型只适用于比较准确的预测三年之内的总人数。
(二)、长期人口增长趋势分析与预测
模型分析
经过对中长期的人口发展趋势的分析,我们发现影响人口发展的因素众多且不确定。例如,近年来中国人口发展中出现的一些新特点:老龄化进程加速、出生人口性别比持续升高以及乡村人口城镇化等。
为此,我们首先对数据进行人口系统结构分析,结合上面的中国人口短期的预测,我们分别建立多变量灰色预测模型GM(1,3),GM(1,4)。我们要兼顾市镇乡人口分布、人口老龄化程度、人口抚养比、出生人口性别比以及孕龄妇女生育率的影响因素,较好的反映出我国人口的增长趋势。更要反映出这些因素对我国人口增长影响的定量关系。从而使预测模型更为精确,真实预测出我国人口的长期发展趋势。
模型准备
从题中所给的从《中国人口统计年鉴》上收集到的部分数据,我们发现了些不合适数据:2004年妇女的生育率比其他年份相差一个数量级。我们对这些数据进行了部分的修改及处理。可以得到以下数据:
全国人口市、镇、乡分布比例
| 年份 | 市 | 镇 | 乡 |
| 2001 | |||
| 2002 | |||
| 2003 | |||
| 2004 | |||
| 2005 |
| 年份 | 市 | 镇 | 乡 |
| 2001 | 8.49 | 6.80 | 7.32 |
| 2002 | 8.95 | 7.25 | 7.58 |
| 2003 | 9.69 | 7.30 | 7.86 |
| 2004 | 9.13 | 8.02 | 8.47 |
| 2005 | 8.70 | 8.08 | 9.52 |
| 年份 | 市 | 镇 | 乡 |
| 2001 | |||
| 2002 | |||
| 2003 | |||
| 2004 | |||
| 2005 |
| 年份 | 市 | 镇 | 乡 |
| 2001 | 109.28 | 116.02 | 117.59 |
| 2002 | 111.37 | 123.12 | 122.11 |
| 2003 | 112.06 | 110.97 | 120.90 |
| 2004 | 114.44 | 126.90 | 122.21 |
| 2005 | 113.92 | 117.21 | 121.21 |
| 年份 | 市 | 镇 | 乡 |
| 2001 | 1.2412 | 1.4844 | 1.8520 |
| 2002 | 1.0672 | 1.3948 | 1.8068 |
| 2003 | 1.0680 | 1.4360 | 1.7720 |
| 2004 | 1.1652 | 1.43 | 1.7424 |
| 2005 | 1.0520 | 1.3044 | 1.5968 |
我们建立多变量灰色预测模型GM(1,N)来建模分析。
设为系统特征数据序列,
为相关因素序列,
则称 为GM(1,N)模型。
则
,
则参数列的最小二乘估计满足 ,
设,则称为GM(1,N)模型的白化方程,也称影子方程。
由,则
1、白化方程按差分法离散,得到解为
2、当变化幅度很小时,可视为灰常量,则GM(1,N)模型的近似响应时间式为(取为)
3、累减还原式
4、GM(1,N)差分模拟式为
模型求解
2.1我们对全国市、镇、乡人口分布(多变量灰色预测模型GM(1,3))进行求解,
系统特征数据序列为:
相关因素数据序列为:
试建立GM(1,3)模型.
GM(1,3)白化方程为:
对作一次累加后的序列为
对做紧邻均值生成序列为
则数据矩阵及数据向量为
对参数列进行最小二乘估计,得
==
则GM(1,3)模型为
由MATLAB计算,可得全国人口预测数据下表
| 年份 | 市 | 镇 | 乡 |
| 2006 | 0.2887 | 0.1768 | 0.4963 |
| 2007 | 0.3027 | 0.1856 | 0.45 |
| 2008 | 0.3176 | 0.1947 | 0.4320 |
| 2009 | 0.3332 | 0.2043 | 0.3995 |
| 2010 | 0.3495 | 0.2144 | 0.3674 |
| 2011 | 0.3667 | 0.2249 | 0.3362 |
| 2012 | 0.3848 | 0.2360 | 0.3062 |
| 2013 | 0.4037 | 0.2476 | 0.2775 |
| 2014 | 0.4236 | 0.2598 | 0.2505 |
| 2015 | 0.4444 | 0.2726 | 0.2251 |
2.2我们对全国市、镇、乡老年人、人口抚养比、男女性别比以及孕龄妇女生育率的分布都用上面的多变量灰色预测模型GM(1,4)进行求解。
2.2.1人口老龄化对我国人口的影响
由MATLAB可以解得全国人口老年人在市、镇、乡的分布预测,如下表:
全国人口老年人在市、镇、乡的分布预测
| 年份 | 市 | 镇 | 乡 |
| 2006 | 8.7780 | 9.3160 | 10.8274 |
| 2007 | 8.7093 | 9.70 | 11.0172 |
| 2008 | 8.6384 | 10.2650 | 11.5482 |
| 2009 | 8.5639 | 10.7450 | 11.9483 |
| 2010 | 8.4944 | 11.2280 | 12.0328 |
| 2011 | 8.4269 | 11.7150 | 11.0926 |
| 2012 | 8.3595 | 12.1760 | 12.4937 |
| 2013 | 8.2923 | 12.9700 | 12.5397 |
| 2014 | 8.2257 | 13.1100 | 12.6372 |
| 2015 | 8.1595 | 13.3670 | 12.6385 |
可见老年人口比例的预测值与实际值变化趋势相吻合,符合要求。城市老龄人口数量有所减少,城镇和乡下的老龄人口数量总体上在逐年增多,老龄化进程加快。资料表明,自1999年中国进入老龄社会开始,老年人口数量不断增加,老龄化程度持续加深。老龄化的加深趋势必导致总人口的上升。中国将面临人口老龄化和人口总量过多的双重压力。目前人口总规模高达13亿,预计到2030年达到最大人口规模14.65亿,总人口过多的压力将长期存在。与此同时,人口老龄化压力已经开始显现。
2.2.2人口抚养比对我国人口的影响
由MATLAB可以解得全国人口抚养比在市、镇、乡的分布预测,如下表:
全国人口抚养比在市、镇、乡的分布预测
| 年份 | 市 | 镇 | 乡 |
| 2006 | 0.3331 | 0.4853 | 0.5038 |
| 2007 | 0.3307 | 0.5067 | 0.5786 |
| 2008 | 0.3280 | 0.5280 | 0.5879 |
| 2009 | 0.3253 | 0.5500 | 0.6002 |
| 2010 | 0.3227 | 0.5713 | 0.6106 |
| 2011 | 0.3201 | 0.5933 | 0.6198 |
| 2012 | 0.3175 | 0.6140 | 0.6278 |
| 2013 | 0.3150 | 0.6500 | 0.6321 |
| 2014 | 0.3124 | 0.6530 | 0.6567 |
| 2015 | 0.3099 | 0.6568 | 0.66 |
有上述图表可见,城市的抚养比有所下降,城镇和乡下的人口的抚养比则有明显的升高。生育率的下降会直接影响人口抚养比,同时可为经济增长创造人口红利。所以,社会经济的发展与人口抚养比有着很大的关联,在后期,要争取采取有效的措施降低镇乡的人口抚养比,以加快经济的迅速发展,减慢人口增长,提高人口素质。
2.2.3男女性别比对我国人口的影响
由MATLAB可以解得全国人口性别比在市、镇、乡的分布预测,如下表:
全国人口男女出生比率在市、镇、乡的分布预测
| 年份 | 市 | 镇 | 乡 |
| 2006 | 112.0809 | 128.0720 | 121.0163 |
| 2007 | 111.1270 | 126.8500 | 120.0387 |
| 2008 | 110.2816 | 125.4000 | 119.41 |
| 2009 | 109.4130 | 123.8573 | 117.07 |
| 2010 | 108.5302 | 122.1650 | 119.3287 |
| 2011 | 107.6554 | 120.3360 | 120.7843 |
| 2012 | 106.7911 | 118.3807 | 123.8753 |
| 2013 | 105.9342 | 117.0323 | 122.9653 |
| 2014 | 105.0843 | 108.6667 | 123.7691 |
| 2015 | 104.2390 | 107.8635 | 124.7823 |
由图象可看出:在占人口比例较大的乡,男性出生比例总体处于上升趋势,尤其是女性出生比例的相对下降;而在城市和城镇,出生比例处于下降趋势,这说明,人口结构与社会成员的素质和受教育程度有很大关联。
2.2.4男女性别比对我国人口的影响
由MATLAB可以解得全国人口性别比在市、镇、乡的分布预测,如下表:
全国人口总和生育率在市、镇、乡的分布预测
| 年份 | 市 | 镇 | 乡 |
| 2006 | 1.0530 | 1.4476 | 2.1029 |
| 2007 | 1.03 | 1.4155 | 2.0766 |
| 2008 | 1.0169 | 1.3813 | 1.9795 |
| 2009 | 0.9988 | 1.3452 | 1.7957 |
| 2010 | 0.9756 | 1.3072 | 1.71 |
| 2011 | 0.8130 | 1.2672 | 1.7220 |
| 2012 | 0.7263 | 1.2262 | 1.6843 |
| 2013 | 0.6959 | 1.1837 | 1.78 |
| 2014 | 0.6767 | 1.0573 | 1.5962 |
| 2015 | 0.03 | 1.0015 | 1.5319 |
由图象可看出:妇女的生育率有缓慢下降的趋势,这无疑对中国未来总人口的发展有比较大的影响。这些数据表明在未来一定时期内人口的增长率将逐年降低,随着时间的推移,相应的实施及高生育率的乡镇人口往城市迁移,预计未来几十年后,人口将趋于零增长甚至负增长。
六、模型分析
人口模型是很古老的研究课题,前人已有很多成熟的模型,侧重各个方向,所以适用范围有所不同,因此,我们在前人已建立的模型的基础上,建立了适合中国人口发展趋势的模型。
模型优点:
1.灰色模型用到人口预测中不仅简单而且能达到比较准确的预测效果。因为,对于影响人口系统的因素,出了出生率和死亡率外,还有社会经济,自然环境,科学技术等一系列方面, 这些众多的因素,不是用几个指标所能表达清楚的。而且,它们之间的结构关系错综复杂,它们对人口增长的作用更是无法精确计算。多数因素都在动态变化之中,其运行机制和变化规律难以完全明白。
2.中长期预测模型着重分析了老龄化进程加速、出生人口性别比持续升高以及乡村人口城镇化等因素对中国人口的增长的影响,并对三个方面的因素进行了定量表述。
模型的缺点:
1.GM(1,1)模型在其使用条件上存在着一定的,它是描述按指数规律变化的事物的模型,因此,它使用于呈指数规律发展变化的系统进行预测。也就是说我们默认了人口的指数增长方式。
2.在1的前提下,人口的发展速度却可能由于各种因素的影响而出现阶段性增长的特征,呈“波浪”型发展,那么利用GM(1,1)模型进行预测时,由于累加生成数列的缘故,也会对其发展的规律产生影响,削弱人口系统发展的阶段性规律。
3.建模过程虽然对影响人口发展的因素有所兼顾,但是不能定量表示它们与人口发展变化的关系。因此在预测过程中,预测精度随预测时间的延长而下降。
七、参考文献
[1]姜启源,谢金星,数学模型,高等教育出版社
[2]叶其孝,数学建模,机械工业出版
[3]林雪松,MATLAB7.0应用集锦,机械工业出版社
[4]黄现代,多变量灰色预测模型算法的MATLAB实现,陕西理工学院数学系
