最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

基于分区的局域神经网络时空建模方法研究

来源:动视网 责编:小OO 时间:2025-10-06 17:16:24
文档

基于分区的局域神经网络时空建模方法研究

第12卷第5期2008年9月遥感学报JOURNALOFREMOTESENSINGVo.l12,No.5Sep.,2008收稿日期:20061204;修订日期:20070904基金项目:国家自然科学基金项目(编号:40471111)、国家863计划项目(编号:2006AA12Z215)及中国石油大学(华东)博士基金项目(Y060124)共同资助。作者简介:王海起(1972),男。讲师,博士。主要研究方向为地学空间信息分析与智能计算。Emai:lwanghq@lreis.ac.cn。文章编号:10
推荐度:
导读第12卷第5期2008年9月遥感学报JOURNALOFREMOTESENSINGVo.l12,No.5Sep.,2008收稿日期:20061204;修订日期:20070904基金项目:国家自然科学基金项目(编号:40471111)、国家863计划项目(编号:2006AA12Z215)及中国石油大学(华东)博士基金项目(Y060124)共同资助。作者简介:王海起(1972),男。讲师,博士。主要研究方向为地学空间信息分析与智能计算。Emai:lwanghq@lreis.ac.cn。文章编号:10
第12卷 第5期2008年9月

遥 感 学 报

J OURNAL OF REMOTE SENSI N G

V o.l 12,N o .5

Sep .,2008

收稿日期:2006 12 04;修订日期:2007 09 04

基金项目:国家自然科学基金项目(编号:40471111)、国家863计划项目(编号:2006AA12Z215)及中国石油大学(华东)博士基金项目(Y060124)共同资助。

作者简介:王海起(1972 ),男。讲师,博士。主要研究方向为地学空间信息分析与智能计算。E m ai:l w anghq@lreis .ac .cn 。

文章编号:1007 4619(2008)05 0707 09

基于分区的局域神经网络时空建模方法研究

王海起

1,2

,王劲峰

2

(1 中国石油大学(华东)地球资源与信息学院,山东东营 257061;

2 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101)

摘 要: 区域数据表现为两种尺度的空间特性:反映全局特征的空间依赖性和反映局域特征的空间波动性。空间波动性表现为空间数据在局部地区的聚集或高低交错现象。在研究区域数据时空预测性建模时,从降低数据的空间波动和不平稳性对模型预测能力的影响角度出发,提出了一种基于分区的局域神经网络时空非线性建模的思路。分区过程由基于空间邻接关系的K m eans 聚类算法完成。不同的分区方案通过相关性、波动性、紧凑性等指标进行评价和优选。在确定最优分区方案的基础上,对各子区分别采用两层前馈网络进行建模,模型的输入不仅要考虑本区内单元的作用,而且要考虑相邻子区的边界效应。各神经网络模型的时空预测能力通过平均相均差和动态相似率等指标进行衡量。最后,通过对法国94个县每周流感报告病例的时空建模分析表明,与全局神经网络模型相比,基于分区的局域神经网络模型具有更好的预测能力。关键词: 格数据;时空建模;分区;K m eans 聚类;神经网络;边界效应中图分类号: P 208 文献标识码: A

1 引 言

在地理信息科学领域,Cressi e 将空间数据分为3种主要类型:点模式数据(po i n t pattern data)、地学统计数据(geosta tistics data )和格数据(lattice data)

[1]

。格数据,也称为区域数据,是指属性数据

关联于固定多边形区域的数据类型,其多边形区域既可以是规则的也可以是不规则的。区域数据分析侧重于对区域空间格局或趋势的探测、建模和解释;区域数据时空分析研究在空间拓扑结构(区域单元的空间排列、形状、大小等)保持不变的情况下,属性数据随时间变化的时空过程和时空格局的探测、建模和预测。

区域时空数据具有空间和时间两方面的属性。从空间角度出发,一方面,正如Tobler 地理学第一定理阐述的观点,空间对象呈现出相互依赖的空间格局,并且这种相互依赖性随着空间对象之间距离的增加而减弱。另一方面,假定空间结构在研究区域内具有平稳性是不现实的,特别在

空间单元数目较多的情况下,它表现为在局部区

域的高值( 热点!)和低值( 冷点!)聚集或异常,从其潜在的空间运动过程来讲,这种现象是由于局部地区空间过程的异质性和空间相互作用的

程度不同造成的。

从时间角度出发,正如单纯的时间序列分析,估计t 时刻某一区域的属性值依赖于t 时刻之前同一区域的属性值,对于一些在时间上具有马尔可夫性的过程,如某些传染病的时空过程建模,甚至仅需要考虑t -1时刻的属性值。然而,更重要的是,如果忽视t 时刻之前其他空间关联区域的作用,将严重影响时空建模的可信度和适用性。

对于区域数据的时空线性关系建模,已经发展了一些时空线性回归模型

[2]

。例如,时空自回归模

型STAR:y t = W y t -1+ y t -1+ t ,通过引进空间权重矩阵W ,不仅考虑了t -1时刻同一区域的属性值,而且考虑了空间相邻区域属性值的作用。实际应用也表明,对于区域数据时空线性建模,STAR 模

型的拟合与预测能力均优于单纯的时间序列模型

如ARMA、AR I M A模型[3]。

实际上,现实中的区域数据常常表现出非线性、复杂性等特点,难以用简单的线性方程进行建模和逼近,这时采用一些较为复杂的建模手段,如神经网络模型,也许能提高时空预测的结果。

神经网络(artific ial neural net w o r ks,简称NN)模型应用于区域数据时空建模和预测有其自身的不足,一方面,大部分NN模型都是一种黑箱!结构,选择合适的网络结构和训练算法往往非常困难,如果不考虑研究对象的先验知识,应用NN进行建模常常导致错误的结果;另一方面,大部分神经网络算法的调整主要基于机器学习理论的角度,很少基于研究问题的领域知识,导致对其预测的结果往往难以进行解释。因此,如果对于研究问题存在简单且有效的方法时,没有必要使用如此复杂的模型;然而,当研究对象比较复杂且简单的方法不再适用时,在牺牲模型易于解释的代价基础上,为了得到更好的预测结果,可以考虑使用NN模型[4]。

本文研究神经网络模型在区域数据时空分析中的应用。基于对空间格局局部不稳定的考虑,首先采用基于空间邻接关系的改进K m eans聚类算法对研究区域的空间单元进行分区划分,提出了利用全局和局部M oran∀s I统计量的关系对不同分区方案进行定量评价的方法;在选择合适分区的基础上对各子区分别采用一个基于BP训练算法的多层前馈网络进行时空建模与预测。同时对整个研究区域建立一个全局的多层前馈网络模型。为了比较全局和局域NN模型效果,采用法国1990年第1周至1992年第53周3年共157周94个县流感报告病例数进行实例分析,以第t周各区患病人数作为输入数据,以第t+1周各区患病人数作为预测数据。

2 区域数据的全局和局域M oran∀s I

统计量

从空间数据探索性分析角度出发,空间数据可认为由两部分组成[5]:

Spatial data=spatial s m oo th+spatia l rough(1)

空间趋势或平滑(spatial s m oo th)反映空间数据的全局或整体特征,对于区域数据,它与全局(大尺度)的空间自相关模式相关。空间正相关性表明研究区域内空间单元属性与其相邻空间单元具有相同的变化趋势(同为高值或低值);负相关性表明研究区域内空间单元属性与相邻空间单元具有相反的变化趋势;无相关性则表明空间单元的属性值彼此相互,在空间上随机分布。

空间波动(spati a l rough)反映空间数据的局部特征。对于区域数据,局域正相关性表现为单个空间单元与其相邻单元属性具有相同的趋势,同为高值(可称为热点!)或同为低值(可称为冷点!);局域负相关性表现为单个空间单元与其相邻区域具有相反的趋势,为高低或低高交错(可称为异常!)。

用于探测区域数据这两个不同尺度空间格局的全局和局域统计量包括M oran∀s I,G etis∀G和Geary∀s c统计量等。

2 1 全局统计量G lobalM oran∀s I

用于探测区域数据的全局空间自相关性,其公式如下[6]:

I=

n#∃n i=1∃n j=1,j%i w ij(x i-x)(x j-x)

∃n

i=1

∃n

j=1

w ij#∃n i=1(x i-x)2

(2)

式中,x i是空间单元i的属性值,x是研究区域n个空间单元的属性平均值,w ij是空间权重矩阵W的元素,定义了单元i与单元j的相关关系。

当M oran∀s I值为正数且显著时表明存在空间正相关性;当M oran∀s I值为负数且显著时表明存在空间负相关性;当M oran∀s I近似为零时表明为空间随机分布。

2 2 局域统计量LocalM oran∀s I

Anselin将其称为LI SA,即空间关联局域指标(loca l indicator of spati a l association),对于空间单元i其公式为[7]:

I i=

n#(x i-x)∃n j=1,j%i w ij(x j-x)

∃n

i=1

(x i-x)2

(3)

当I i为正数且显著时,表明空间单元i与其相邻单元存在高值或低值的聚集现象;当I i为负数且显著时,表明空间单元i与其相邻单元存在高低或低高交错现象;否则表明存在局部的空间随机现象。

2 3 全局和局域M oran∀s I之间的关系

当空间权重矩阵W采用空间邻接形式,即若单第5期王海起等:基于分区的局域神经网络时空建模方法研究709 元i与单元j具有共同边界则w ij=1,否则w ij=0,并

且矩阵W是行标准化形式(每行元素之和为1)时,

公式(2)与公式(3)之间的关系可表达为[7]:

I=1

n

∃n

i=1

I i(4)

公式(4)表明,对于一个研究区域,局域M oran∀s I的平均值即是全局M oran∀s I值。因此,当整个区域的空间过程较为平稳或空间波动不明显时,可以预期局域M oran∀s I值围绕全局M oran∀s I值的波动较小;反之,当空间过程不平稳或空间波动较明显时,局域M oran∀s I与全局M oran∀s I具有较大的差异。

因此,可以用Loca l M oran∀s I与其平均值G l o ba lM oran∀s I的标准偏差作为度量一个区域波动程度(或平稳性)的指标,其公式如下:

Std(I)=1

n

∃n

i=1

(I i-I)2(5)

在下一节中,Std(I)将作为不同分区方案是否稳定的一个评价指标。一个子区的Std(I)值相对较小,表明该子区的平稳性较好、波动较弱;否则,表明该子区的平稳性较差、波动较强。

3 分区标准

类似于地理学中的区划思想,分区的目的是根据一组评价标准利用空间单元的属性数据对研究区域的单元进行划分,使所有空间单元归到不同的子区中。对具有时空属性数据的区域单元进行分区时,可以将同一属性在不同时期的观测值作为不同的属性来对待,如:某县报告的12个月每月流感患病人数可以看作12个不同的属性数据。

C liff等人给出了一个最佳的(opti m al!)区划方案在一般情况下应满足的3个标准:简洁性(si m plic ity)、均质性(ho m ogeneity)和空间紧凑性(co m pactness)[8,9]。根据局域神经网络建模的需要,综合上述区划标准以及另外的两个附加标准来构建我们的分区评价指标。

(1)简洁性(si m p licity)

对于局域时空建模,需要对分区方案中的每个子区分别建立一个模型,子区数目较少,需要建立的模型及相应的计算量就较少,对于NN模型来说用于模型学习时间的减少更为明显。因此,当其他分区标准难以确定不同分区方案的优劣时,分区数目较少的方案总是优于分区数目较多的方案。

(2)邻接性(conti g uity)

邻接性意味着在分区时,只有空间相邻单元才能归到同一子区中。邻接性的考虑将通过对K m eans聚类方法的改进而得以实现。

(3)紧凑性(co m pactness)

紧凑性关注于各子区的空间形状,它保证在分区结果中总是优先考虑那些相邻空间单元距离较近的方案,一些学者认为空间紧凑性与我们对社会和经济活动的直观理解!是一致的[10]。对于一个子区,通过计算该子区质心与子区包含的各空间单元质心的平均距离(也称为离散度)作为衡量紧凑性的性能指标,该公式如下:

d=

1

n

∃n

i=1

(x i-x g)2+(y i-y g)2(6)式中,n是子区包含的空间单元数目;x i,y i是空间单元i的质心坐标;x g,y g是该子区的质心坐标。如果离散度较小,则表明该子区内的单元较为紧凑;否则,表明该子区较为松散。

(4)相互依赖性(i n terdependence)

相互依赖性保证一个子区内的空间单元之间具有关联性。对于基于分区的局域神经网络时空建模,各空间单元t时刻某个属性值的预测(作为输出层节点)实际上是利用t时刻之前各单元的属性值(作为输入层节点)之间的相互作用(通过隐含层)实现的,因此,分区方案必须保证子区内的空间单元存在实际的空间相互作用或依赖性。每个子区的空间依赖性可利用该子区的全局M oran∀s I系数进行评估。

(5)不平稳性(instab ility)

虽然使每个子区具有完全平稳性是不可能的,但是不平稳性越低意味着NN模型的预测效果越好[4]。各子区的平稳性由前述的Std(I)指标衡量。

由上述分析可以看出,在对不同的分区方案进行评价时,各分区指标起到的作用是不同的。首先,相互依赖性是必要条件,不满足此条件的分区结果不能使用;其次,不平稳性是优先考虑的指标,对于那些Std(I)相差无几的方案,可进一步利用离散度进行评价;最后,简洁性是可选标准,在随后的应用实例中并没有使用。

需要指出的是,NN模型研究的是区域时空数据,而上述分区标准(4),(5)涉及的M oran∀s I系数只是纯粹的空间相关性指标,因此对时空数据采用空间M o ran∀s I指标衡量并不合适。然而,从已有文献的检索中并没有找到合适的可用于区域时空710 遥 感 学 报第12卷相关性计算和检验的全局和局域时空统计量,这

里,采用一种折衷的方法,对于研究的时空变量

(如:不同时间不同县的流感患病人数),构造一个

统计量,使得对于每个空间单元,该统计量是研究

变量的不同时间观测值的函数(如:不同时期流感

病例的平均值、总和或最大值等)。

4 基于空间邻接关系的K m eans聚类

方法

聚类方法是将研究对象按照其特征分组为多

个类,使每个类对象之间具有较高的相似性,而不

同类对象之间的差别较大。K m eans方法由

M ac Queen于1967年提出,是目前应用最为广泛的

一种聚类方法。

利用聚类方法对空间单元进行分区时,要求同

一子区的单元在空间上处于相邻的位置,在地图上

表现为彼此相连的状态。而传统的聚类方法仅利

用空间单元的属性数据,并没有考虑单元的空间邻

接关系。有研究对空间单元聚类时,将单元的空间

坐标作为额外的属性变量加以考虑,然而这种方法

得到的同一子区的单元仍然可能出现在空间不相

邻的位置[10];也有研究提出了新的空间单元分区

方法[11,12]。

本文利用K m eans聚类方法对空间单元进行

分区,在分区过程中将空间邻接关系作为约束条

件加以考虑。在对每个空间单元进行类别归属判

断时,不仅要考虑单元与某类别中心的距离,而且

要考虑单元与该类别中空间单元的邻接关系;只

有当该类别与进行归属判断的空间单元之间存在

邻接关系且距离最短时,单元才可以归属于该类。

这样,对于最终的分区结果,既保证了同一类单元

的属性值差别较小、不同类之间属性值差别较大,

又保证了同一类的空间单元在空间上处于相邻的

位置。

4 1 相关定义

首先对研究的区域时空对象作如下定义:

(1)设研究区域S有N个空间单元S={s1,

s2,&,s N}及邻接关系(ne i g hbor relation)R S∋S。

空间单元s i和s j具有邻接关系当且仅当(s i,s j)(

R,i%j。用空间邻接矩阵W表达邻接关系R,W(i,

j)=W

ij =1当且仅当(s

i

,s

j

)(R,否则W(i,j)=

W

ij =0。

(2)对每个单元s i,设研究的单元时空属性变

量为X i)X(s i)=[x i1,x i2,&,x iT],T是时间维的

长度。

(3)对每个单元s i,构造一个统计量Q i)Q(s i)=

f(X i)=f(x i1,x i2,&,x iT),Q i是时空属性变量X i

的函数,用于评价分区结果的空间M oran∀s I系数

计算。

其次,对于K m eans聚类算法作如下定义:

(1)定义{z1,z2,&,z K}为K个聚类中心,每

个聚类中心z j=[z j1,z j2,&,z jT](j=1,2,&,K)。

(2)对每个聚类中心z j定义一个集合Z j,用于

存放该类别中包含的空间单元,初始化时集合Z j

为空。

(3)定义N∋K的二维距离矩阵D i s,t用于存

放每个空间单元与每个聚类中心的距离。同时定

义矩阵D ist的N∋K辅助逻辑矩阵D i s M t ark,用于

标识在距离矩阵D ist中搜索单元到聚类中心的最

短距离时该距离是否参与搜索过程,若矩阵

D isM t ark中某元素值为T r ue,则矩阵D ist中对应距

离参与搜索,否则不参与搜索。

4 2 算法流程

基于空间邻接关系的K m eans聚类算法详细流

程请参考文献[13]。

利用该算法,通过指定不同类别数K,可以得到

不同K值的分区方案。对不同分区方案,利用分区

标准进行优选。

首先,对指定类别数为K的分区方案的各个子

区,分别将各子区作为单独研究区域计算其统计量

Q的全局M oran∀s I系数,若存在没有空间相关性

或相关性不显著的子区,则类别数为K的分区方案

将被淘汰;其次,对通过相关性检验的每个K类分

区方案,再分别以各子区作为单独研究区域计算各

自的平稳性指标Std(I)和离散度指标d,将各子区

指标的平均值作为每个K类分区方案的平稳性和

紧凑型的指标结果;最后,从中选择平稳性最好

(Std(I)值最小)、离散度最小的分区方案作为最终

的分区结果。

5 神经网络建模及其边界效应

5 1 神经网络模型

在确定最终分区方案的基础上,可以对各子区

分别进行神经网络时空建模和预测。由于多层前第5期王海起等:基于分区的局域神经网络时空建模方法研究711

馈网络模型可以对任意的输入 输出映射进行建模并在实际应用特别是预测问题中得到了广泛的应用,并且理论已经证明:具有单隐层的前馈模型可以任意的精度逼近任意复杂的非线性函数,因此,采用两层前馈网络(包括隐含层、输出层,不包括输入层)进行建模。

对于区域单元时空预测性建模,模型输出是t 时刻各单元的预测值X t,输入是t时刻之前相关时段各空间单元的观测值,神经网络建立如下的函数映射关系:

X t=f(X t-1,X t-2,&,X t-p)(7)因此,NN模型实际上是一个非线性的时空自回归模型。p是时间滑动窗口步长,用于决定建模时的相关时间滞后项,例如,对于T个时间的观测向量X1,X2,&,X T,每个X t=[x t1,x t2,&,x t N]表示空间N个单元的观测值,进行一步预测(1 step ahead)时,第1个输入 输出模式的输入是X1, X2,&,X p;预期输出是X p+1;第2个输入 输出模式的输入是X2,X3,&,X p+1;预期输出是X p+2,&,最后,第T-p个输入 输出模式的输入是X t-p, X t-p+1,&,X T-1、预期输出是X T。

目前,滑动窗口步长p的确定并没有合适的方法,有研究利用线性关系的时空自相关函数和时空偏自相关函数来确定时间阶数p,也有学者认为这种方法对于神经网络的非线性滞后并不合适[14]。实际使用时,常采用多次试验(try and error)的方式。

NN模型的性能评价主要通过检验数据集衡量所建立的模型对于新输入的预测能力,即泛化能力,主要包括平均相均差ARV和动态相似率DSR两个指标[15],前者反映模型预测输出的准确程度,后者反映模型预测的趋势与实际趋势的接近程度。

5 2 边界效应

采用分区的思路进行局域神经网络建模,并不表明不同子区的空间单元之间没有关联性,相反,可能存在着其他形式的相关关系,如经济、交通和人口等形式,而这些形式的相关关系并不能被简单的空间邻接矩阵所表现和度量,因此,在建模时如果仅考虑子区内的单元对模型输出的影响,而忽视子区周围单元的影响因素,等于人为割裂!了不同空间区域单元之间的相互联系和空间依赖关系,这与地理学第一定理是相违背的,模型的结果也是令人难以接受的。因此,采用对各个子区分别进行NN非线性建模时,不仅要考虑子区内各单元的观测值对模型预测结果的作用,而且应引入与其相邻的空间区域的作用因素,即边界效应。

这里,把与子区直接相邻(边相邻或顶点相邻)的边界空间单元t时刻之前的观测值也作为NN模型的输入加以考虑,这样,局域NN模型输出的各单元t时刻预测结果不仅是子区内各单元t 时刻之前观测值的函数,而且是其周围边界单元t 时刻之前观测值的函数。对于一步预测建模,若设一个子区的单元数目为n,与其相邻的单元数目为m,时间滑动窗口步长为p,那么,该子区的局域NN模型的输入层节点个数为(n+m)∋p,输出层节点个数为n。

6 应用实例

研究数据采用法国94个县的每周流感报告病例[16],时间为1990年第1周至1992年第53周共157周,图1(a)为法国94个县的数字编号。

以每周流感平均患病人数构造空间统计量Q,其空间分布见图1(b)。空间邻接矩阵W采用边界直接相邻的一阶形式,根据各县每周平均病例计算的94个县全局M oran∀s I=0.1281,假设检验表明流感病例具有显著的空间正相关(图2),说明法国各县流感具有空间自相关性,而且呈现出高发区与高发区相邻、低发区与低发区相邻的空间格局。

6 1 分区

以每周流感病例作为各县的属性数据,各空间单元分别具有157个属性数据,以一阶邻接矩阵W作为约束条件,对法国94个县进行K m eans 聚类分区。由于事先无法确定聚类的类别数K,依次取K值为4 16之间的数值,分别进行聚类计算,通过不同分区方案的相关性检验,最后具有显著空间相关性的类别数K分别为8,9,10,12, 14,16;分别计算这6个不同分区方案的S t d(I)指标,离散度指标(表1),最终选择的最优类别数K=12。

分区数为12的各子区空间分布见图1(c),从图1(b)与图1(c)的对比可以看出,最终的分区方案也反映了流感病例的空间分布格局。表2给出了712 遥 感 学 报第12

图1 法国94个县流感病例分区情况

(a)94个县数字编号;(b)94个县1990年第1周至1992年第53周平均每周流感报告病例分级图;

(c)类别数为12的分区结果;(d)第1分区及相邻的边界区域单元

F i g.1 Pa rtition i ng fo r fl u cases o f94coun ti es in F rance

(a)numb er I Ds of94counti es;(b)average w eek l y fl u cases of94counti es fro m t h e1stw eek of1990t o the53th w eek of1992;

(c)the partiti on m ap of K=12for94coun ti es;(d)the first s ub area and it s nei ghbori ng reg i on

s

图2 法国94个县平均每周流感病例的全局M oran∀s I散点图

F i g 2

G l oba lM oran∀s I o f average w eek l y

fl u cases for94counties i n F rance 分区数为12的各子区包含的空间单元数目,各自的空间相关性指标全局M oran∀s I值和相应的Z得分检验值,平稳性指标Std(I)值。

表1 6个不同类别数K的分区方案评价指标结果Tab le1 The resu lts of partiti on criteria

for si x par tition schem es

类别数K平稳性指标Std(I)离散度指标d

80.66767.68

90.6614612.34

100.651434.10

120.52511030.27

140.58849.76

160.53456.39

第5期王海起等:基于分区的局域神经网络时空建模方法研究713 表2 分区数为12的各子区相关指标结果

Tab le2 R elevan t statistic of each subarea i n the

par tition schem e of K=12

空间单元数

全局

M oran∀s I

Z

得分检验

S t d(I)

第1子区20-0.3392-1.97990.4227

第2子区50.73022.92240.4193

第3子区60.21412.02180.2792

第4子区2-1-∗0

第5子区3-1.9190-4.01350.3422

第6子区180.25061.97250.6780

第7子区70.39482.71970.6516

第8子区150.31951.99340.4449

第9子区1

第10子区80.53262.14900.6662

第11子区80.40702.21620.4026

第12子区1

6 2 神经网络建模

对12个子区分别建立一个神经网络模型,每个局域NN模型利用第t-1,t-2,&,t-p周各县的流感病例,预测第t周本子区各县的流感患病人数。由于流行性感冒的传染期约为1周,对于以周为时间单位的建模,输入可以仅考虑第t-1周的病例,即p=1。

因此,各NN模型的输出层节点数等于本子区包含的空间单元个数,输入层节点数为本区单元个数与周围边界单元个数之和,图1(d)为第1子区及其相邻的边界单元,表3为各子区NN模型的输入层、输出层节点数。 为了比较局域NN模型的效果,同时对整个研究区域94个县建立一个全局NN模型,输入数据为第t-1周各县流感病例,预期输出为第t周各县流感病例,即输入与输出节点数均为94。

表3 各子区NN模型的输入层和输出层节点数Table3 The number of input nodes and outpu t nodes of each NN model for twe l ve subareas

输入节点数输出节点数第1子区3620

第2子区95

第3子区156

第4子区102

第5子区83

第6子区3218

第7子区177

第8子区2815

第9子区61

第10子区228

第11子区248

第12子区71

针对上述的局域和全局NN模型,将各子区156个观测数据对(X t-1,X t),其中X t-1,X t分别是t-1时刻,t时刻空间单元的观测向量;按90%+ 10%比例随机分为训练集(trai n dataset)和检验集(test dataset),训练集为140对样本,检验集为16对样本。采用BP算法进行模型训练与调整,再利用检验集对模型进行检验。最后由各局域和全局NN 模型得到的法国94个县各县检验数据的平均相均差ARV、动态相似率DSR指标结果见图3和图4(

图3 法国94个县全局和局域NN模型检验数据集的平均相均差对比图

F i g.3 T est datase t∀s ARV o f l oca l and g loba lNN m ode l for94coun ties in F rance714 遥 感 学 报第12

图4 法国94个县全局和局域NN模型检验数据集的动态相似率对比图

F i g.4 T est da taset∀s D SR of l o ca l and g loba lNN m ode l for94counti es i n F rance

坐标是各县的数字编号,与图1(a)对应)。可以看出,基于分区的局域神经网络模型的预测能力明显优于全局NN模型。

7 结论与讨论

针对G I S格数据时空非线性建模,从降低数据的空间波动和不平稳性对模型预测能力的影响角度出发,提出了一种基于分区的局域神经网络建模的思路,分区的目的是使在全局尺度上表现为空间波动的局部区域,通过分区在较小尺度上表现为较强的空间相关性和较弱的空间波动性。

需要指出的是,在采用K m eans聚类算法进行分区时,初始聚类中心的选择对最终的分区结果具有重要的影响,对于空间聚类,随机选择初始聚类中心并不是一个合适的方法,进一步的研究应结合研究区域的空间格局,如:考虑局部的热点!或冷点!区域,使初始聚类中心的确定与空间格局建立联系。另外,对于分区标准,有必要进一步细化研究,对于不同类型的空间过程可能会有不同的评价标准,对于反映空间波动和不稳定性的指标需作更深入的分析,对于区域时空过程,研究相应的时空评价指标和检验方法更是势在必行。

参考文献(R eferences)

[1] C ressieA C.S tati stics f or Sp ati alData[M].N e w York:W iley,

1991.

[2] Ka m ari anak is Y.Spatial T i m e S eries M odeli ng:A Revie w of t he

Proposed M et hodo l og i es[A].Proceed i ngs of t he8t h AGILE

Conference on GIS ci ence[C].Portuga,l2005.

[3] H an W G.Data Dri ven and M odel Dri ven Spati o T e mporal Data

M i n i ng[D].Ins tit u te of G eograph ic Sciences and Nat u ral

Res ources Res earch,CAS:Graduate Schoo l ofCh i n ese Acade my

of Sciences,2005.[韩卫国.数据驱动和模型驱动的时空数

据挖掘[D].中国科学院地理科学与资源研究所:中国科学

院研究生院博士学位论文,2005.]

[4] G il ard iN,Bengio S.LocalM ach i ne Learn i ngM od els f or Spati al

Data Analys i s[J].Jou rnal of G eographic Informa tion and

D ecision Ana l ysis,2000,4(1):11 28.

[5] H ai n i ng R.Spatial Data Anal ysis:Theory and Practi ce[M].

London:Ca m bridge Un i versity Press,2003.

[6] Anseli n Lu c.Spati al E conom etrics:M et hods and M odel s[M].

Dordrech t:K l uw er Acad e m ic,1988.

[7] Anseli n Lu c.Local Ind icat ors of SpatialA ss oci ati on L ISA[J].

G eographical Analysis,1995,27(2):93 115.

[8] H ai n i ng R,W i se S,M a J.Desi gn i ng and I m p l e m en ti ng Soft w are

f or Sp ati al S t ati sti calAnal ysis i n a GIS E nvironm ent[J].Journa l

of G e og raph ic a l Syst e m s,2000,2:257 286.

[9] C liffA D,H aggett P,O rd J K,e t a l.E le m en ts of Spati al

Stru cture:A Qu anti tati ve App roach[M].London:C a mb ri dge

Un i versit y Press,1975.

[10] W ise S,H ai n i ng R,M a J.Reg i onali zation Tools for t h e

Exp l oratory Spati alAnal ys i s ofH ealth Data[A].Fis h erM,Geti s

A.Recen t Devel opm en ts i n Spati al Data An al ysis:Spati al

Statisti cs,Behavi ora,l M odeling and Neuro co m puti ng[C].

B erli n:Sp ri nger,1997.

[11] Leung Y,Zhang J,Xu Z.C l us t eri ng by Scal e Space F ilteri ng

[J].IEEE Tran sactions on Pa tte rn Anal y sis and M a c h i n e

Intelli gence,2000,22(12):1396 1410.

[12] Luo J C,Zhou C H,Leung Y ee,e t a l.S cale Sp ace Theory

B ased Regionalizati on for Spati al Cell s[J].A cta G e og raph ic a

S i n ic a,2002,52(2):167 173.[骆剑承,周成虎,梁怡等.

多尺度空间单元区域划分方法[J].地理学报,2002,

57(2):167 173.]

[13] W ang H Q,W ang J F.An Ad apted K m ean s A l gorith m B ased on

Spati a lC onti gu ity Relati on s[J].Co mpu t er Engineeri ng,2006,

32(21):50 51.[王海起,王劲峰.一种基于空间邻接关

系的K m ean s聚类改进算法.计算机工程,2006,32(21):

50 51.]

[14] Zhang G,Pat uwo B E,H u M Y.Forecasti ng w it h A rtifi ci al第5期王海起等:基于分区的局域神经网络时空建模方法研究715

Neu ralN et w ork s:The S tat e of t he Art[J].In ternationa lJou rnal

of Forecasti ng,1998,14:35 62.

[15] W ang J F.Stru ctural Adap tive M odeli ng of Sp ati al Geo

i nfor mati on[J].Ac t a Geog raph i ca S i n ic a,1995,50(Supp.l):

54 61.[王劲峰.空间信息的结构自适应模型[J].地理学

报,1995,50(增刊):54 61.]

[16] Dat a Source ofFrance Fl u:www.s ph.um i ch.edu/geo m ed/dat a/

f rance/.[法国流感数据来源:www.s ph.um i ch.edu/geo m ed/

dat a/france/.]

Local N eural N etworks of Space tim e M odeli ng Based on Partitioning

for L attice Data i n G I S

WANG H a i qi1,2,WANG Jin feng2

(1.Colle g e o f G eo resources and Infor m ati on,Un i ve rsit y of P etroleu m(Ea stC hin a),Dongyin g Shan d ong 257061,C hina;

2.LREIS,Institute of G eograph ic S cie nces and N ati ona lR esources R ese arch,Ch i neseA c ade my of Sci ences,B eijin g100101,C hina)

Abstract: This paper focuses on space tm i e nonlinear i ntelli gent m odeling for latt ice data.Lattice data refers to attri butes attached to fixed,regular or irregular,polygona l regions suc h as districts or census zones i n t wo dm i ensi ona l space.L att i ce data space tm i e ana l ysis is am i i ng at detecti ng,m odeling and predict i ng space tm i e patter ns or trends of lattice attributes changed w ith tm i e while spatial topolog ical str uctures are sm i ulta neousl y kept i nvariable.Fro m the perspecti ve of space,lattice objects have t wo differe nt scale spat i a l properties influenc i ng l attice data m odeli ng:globa l dependence and local fluct uat i on.G l obal spatial dependence or autocorrelat i on quantif i es t he correlati on o f the sa me attri bute at d ifferent spatial locat i ons,a nd local spatial fluctuat i on or r ough,c oexiste d w ith global dependence,is represented i n the for m of local spat i a l cl ustering of sm i ilar val ues or local spat i al outliers.To consider sm i u ltaneously the effects of t wo propert i es above,local ne ural net wor ks(NN)model is st ud i ed for space tm i e nonlinear autoregressive m odeli ng.The main researc h contents include:(1)To reduce i nfl ue nce of spatial fluctuati on on predicti on accuracy of NN,all regions are part itioned i nto several subareas by an m i proved k m eans algorith m.(2)D ifferent partiti on sche m es are evaluated and co mpared accordi ng to three esse ntial criteri a includi ng de pe nde nce,continuity,fluct uat i on. Dependence m eans t hat an optm i al partition must guar antee t hat there i s real and si gn ificant spatial dependence a m ong reg i ons i n a subarea because the results of output layer nodes i n a NN model dependi ng on the i nter act i ons of input l ayer nodes through hi dden l ayers nodes.Spatial a utocorrelat i on of a subarea can be measured by g lobal M oran∀s I and its si gnificance test can be done based on z score of M oran∀s I.Cont i nuity mea ns t hat only neighbori ng reg i ons can be grouped i nto a subarea,and this criteri on is f used into the modified k mea ns a l gorithm.Whe n the al gorithm judges one reg i on whic h subarea it belongs to,not only should the d istance be consi dered to t he centro i d of a subarea but also the co mmon borders bet w een this re g ion and the regions i n a subarea.A s to fl uctuation,alt hough it is m i possi ble to make each subarea have co mplete spat i al stability through part itioni ng,the less fluctuati on m eans the better predict i ng results of NN m ode.l For a subarea,standard deviati on bet ween local M oran∀s I of all regions in the subarea a nd globa lM oran∀s I of the subarea is regarded as an eval uat i on index to the fl uctuation of t he subarea.(3)Eachmu lti layer perceptrons(M LPs) net work i s used respectively i n m odeling and predicti ng for eac h subarea.The output nodes are the predicting val ues at t m i e t of an attri bute for all regions i n a subarea.The i nput nodes are observations before tm i e t o f the sa m e attri bute of both reg i ons i n t he subarea and reg i ons nei ghbori ng to t he subarea and the latter is called boundary effect.F i nall y,as a case study,all loca lm odels of all the subareas are tra i ned,tested and co mpared w ith a si ng le global M LP s net work by m odeli ng one step ahead prediction of an epi de m ic dataset whic h recor ds w eekly i nfluenza cases o f94depart m e nts i n France fr o m the first wee k of1990to the53th o f1992.Two perfor m ance m easures,i ncludi ng average relati ve variance (ARV)and dyna m i c sm i ilarity rate(D SR),i nd icate that local NN model based on partit i oning has better predict i ng capability tha n global NN mode.l Several issues are st ill worth f urther study:(1)The initial subareas of partitioni ng are selected rando m l y i n our research.In the further study,a reasonable approac h should co mbine selection w ith spat i a l patter ns,f or i nstance consi deri ng the center of l ocal cl uster.(2)Partiti on criteria should be another issue and differe nt types of spatial a nd space tm i e pr ocesses,such as rai nfal,l price waves,public data,etc,may have d ifferent objective criteria f or choosi ng an optm i al partit i on.(3)It m ay bem ore m i perative to study feasi ble m easures for qua ntifyi ng globa l and local space tm i e dependence of latt i ce data and testi ng significance o f this dependence.

K ey words: latt i ce data;space tm i e modeli ng;partitioni ng;K m eans clustering;neural net works;boundar y effect

文档

基于分区的局域神经网络时空建模方法研究

第12卷第5期2008年9月遥感学报JOURNALOFREMOTESENSINGVo.l12,No.5Sep.,2008收稿日期:20061204;修订日期:20070904基金项目:国家自然科学基金项目(编号:40471111)、国家863计划项目(编号:2006AA12Z215)及中国石油大学(华东)博士基金项目(Y060124)共同资助。作者简介:王海起(1972),男。讲师,博士。主要研究方向为地学空间信息分析与智能计算。Emai:lwanghq@lreis.ac.cn。文章编号:10
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top