
基于累积Logistic 回归道路交通拥堵强度评价模型
刘梦涵1,于 雷1,2,张雪莲1,郭淑霞1
(11北京交通大学交通运输学院,北京100044;2.德克萨斯南方大学交通系,美国休斯顿77004)
摘 要:现有的道路交通拥堵强度评价模型缺乏有效的定量方法来划分拥堵的各个等级,选取的拥
堵评价自变量之间存在相关性等问题.为了改进上述不足,该文在分析拥堵强度序次特征后,将累积Logistic 回归引入到道路交通拥堵强度评价模型.采用似然比检验方法验证了累积Log istic 回归的适用性,并采用Wald 检验筛选自变量后,确定了以行程速度为自变量的道路交通拥堵强度评价模型.该模型的拟合优度判定系数(类R 2
)大于0170,对实测数据的预测准确率达到73139%.关键词:交通拥堵强度;累积Log istic 回归;似然比检验;Wald 检验中图分类号:U4911113 文献标志码:A
Cumulative Logistic Regression -Based Measurement Models
of Road Traffic Congestion Intensity
LI U Menghan 1,Y U Lei 1,2,ZHAN G X uelian 1,G UO Shuxia 1
(1.School of T raffic and T ranspor tatio n,Beijing Jiaotong U niversity,Beijing 100044,China;2.Department o f T r anspo rtation Studies,T ex as Southern U niv ersity,Houston,T exas 77004,U.S.A.)
Abstract:Existing models for measuring the traffic congestion intensity lack an effective quantitative method to classify the g rades of congestions,and the employed congestion measurement independent v ariables are often inter -correlated.In order to overcome these deficiencies,this paper analyzes the or -dinal characteristics of the congestion intensity,and then introduces the cumulative logistic regression into the measurement models of the congestion intensity.It adopts the likelihood ratio test to validate the adaptability of the cumulative log istic regression,and Wald test to select the independent variables.T hen,it develops measurement models of the congestion intensity by using the travel speed as the inde -pendent variable.The proposed model shows a determination coefficient(analogous R 2
)higher than 0170in the goodness -o-f fit test,and a prediction with an accuracy of 73139%against the observed data.Key words:traffic congestion intensity;cumulative logistic regression;likelihood ratio test;w ald test 收稿日期:2008-04-08
基金项目:北京市交通委员会资助项目(TL05002)
作者简介:刘梦涵(1980)),女,四川自贡人,博士生.email:04114210@bjtu.edu.cn.
根据Pisarski 对1990年美国城市交通拥堵监控研讨会的总结,将拥堵维数划分为:拥堵程度、拥堵强度、拥堵时间和拥堵范围[1].其中:拥堵强度定义为交通拥堵影响出行者出行效率的严重程度,其计算方法为实际交通运行状况和期望交通运行状况之间的差异.在过去的几十年中,国内外在拥堵强度评价领域完成了大量的研究工作.
由于交通拥堵的重要影响是导致出行时间和延误的增加
[2]
,因此基于行程速度或者行程时间的评
价方法被广泛地用于道路拥堵强度的量化.
具有代表性的道路拥堵强度评价指标包括:行程速度
[3]
;行程速率
[4]
;延误率
[4]
;延误比
[4]
;相对
延误率[4],拥堵指数(Congestion Index,CI )[5]引用此概念;行程速率比[4],出行时间指数(T ravel T ime
第32卷第6期
2008年12月
北 京 交 通 大 学 学 报
JOU RN AL O F BEIJIN G JIAOT O NG U N IV ERSI T Y
V ol.32N o.6Dec.2008
现有的道路拥堵强度评价方法存在两个关键性问题,一是道路拥堵判别阈值的确定往往根据交通管理者或者工程师的经验,缺乏合理的定量方法来划分拥堵的各个等级;二是现有的拥堵综合评价模型选取的评价变量之间存在相关性,需要在建模过程中消除这一影响.基于上述分析,本文提出了拥堵是出行者对交通运行畅通程度的感受,拥堵的定义应该基于出行者对拥堵的理解.如果定义拥堵强度为取值从/拥堵0到/畅通0的序次变量,则必须采用处理因变量为分类变量的分析方法,具有该判别能力的统计方法包括:判别分析、Probit分析、Logistic 回归分析和对数线性模型等.
本文作者以采用累积Logistic回归方法构建道路交通拥堵强度评价模型为目标,研究道路交通拥堵强度与代表道路交通运行状态的多个自变量之间的函数关系,并对模型的适用性和有效性进行验证.
1模型构建
111评价模型的构建
以拥堵强度作为因变量,初步选择行程速度、延误比、停车次数、停车时间、出入口(信号)密度(其中:快速路为出入口密度,非快速路为信号密度)5个自变量代表道路交通运行状态,构建道路交通拥堵强度评价模型.初步构建模型如下
ln
p1
1-p1
=B01-E5k=1B k x k
ln
p1+p2
1-p1-p2
=B02-E5k=1B k x k
ln
p1+p2+p3
1-p1-p2-p3
=B03-E5k=1B k x k
ln p1+p2+p3+p4
p5
=B04-E5k=1B k x k
(1)
式中:p1,p2,p3,
p4,p5分别表示严重拥堵、中度拥
堵、轻微拥堵、畅通、非常畅通的发生概率,5个p值和等于1;x1,x2,x3,x4,x5分别表示行程速度、延误比、停车次数、停车时间和出入口(信号)密度; B0k,B k分别表示回归截距和回归系数.112建模数据的获取
为了获取建模数据,本文设计了人工判别拥堵强度的数据采集实验.考虑到不同等级道路的运行状态差别明显,人们对于其拥堵强度的感受也存在较大差异.因此实验路线涵盖了不同等级的城市道路,包括:快速路、主干路、次干路(含支路).实验方案为调查人员调查北京各等级道路的拥堵强度数据和采集对应时间点的GPS速度数据.
实验中,车辆安装GPS记录仪装置并按照指定调研路线反复运行,记录车辆运行时每秒的车速.同时,车上的调查人员每分钟记录对道路拥堵强度的判别数据及出入口(信号)数量.调查时间为6:00-19:30.调查车辆行驶路线的GIS图如图1所示.
图1人工判别拥堵强度的调查路线
Fig.1Survey routes for manual determination
of congestion intensity
本次实验共采集人工判别拥堵强度数据4000余条,满足Logistic回归对样本规模的需求.在建模的过程中,将实验数据分成两部分:一部分作为建模所需的观测案例;另一部分用于检验模型预测的准确性.
113评价模型的求解
在累积Log istic回归模型的求解过程中,必须满足下列两个基本检验条件[9],才能够按照极大似然法进行求解.
1)评价模型的似然比检验.在确定了拥堵强度评价模型的因变量为序次变量后,需要对累积Lo-gistic回归模型的/比例性0假设条件进行统计检验,检验累积Logistic回归模型是否适用.
对/比例性0假设条件的检验方法是构造G统计量并采用V2检验,简称L.R.[9],G的计算式为
G=-2(ln L p-ln L k)(2)其中:L p表示模型p的对数似然值;L k表示模型k 的对数似然值,模型p和模型k依次代表式(1)中的累积Log istic回归模型.
53
第6期刘梦涵等:基于累积Log istic回归道路交通拥堵强度评价模型如果L.R.的V2值统计性不显著,即显著性水
平低于0105,则表明累积Log istic回归模型是适用的,符合/比例性0的要求.
通过对我们采集的各等级道路数据的累积Lo-g istic回归模型的/比例性0假设条件进行检验,结果如表1所示.
表1包含5个自变量的模型似然比检验
T ab.1L ikelihood ratio test on models
wit h five independent variables
道路等级V2自由度Sig.¹
快速路11881120
主干路92194120
次干路(含支路)83187120
注:¹Sig.代表显著性概率.
可以看出,快速路L.R.的V2统计值为118812,自由度为12,显著性概率小于0105,因此L.R.的V2统计性不显著,表明累积Logistic回归适用于快速路交通拥堵强度评价,同样,主干路、次干路(含支路)都通过了/比例性0检验.
2)自变量的显著性检验和筛选.要检验所选的自变量引入模型后是否对模型的预测结果有显著贡献,然后筛选自变量.
判断某个自变量是否应该包含在Log istic回归模型中,可以使用Wald统计量来检验[9].一般情况下,Wald值越大或显著性概率越小,则自变量在回归方程中的重要性越大、贡献较大,应该将其纳入模型,反之则应该去除.Wald检验的统计量为u,计算方法如下
u=B i/S B
i
(3)式中:B i表示自变量x i的回归系数样本值,根据拥堵强度评价模型设计,包含5个自变量,因此i的取
值为1到5;S B
i
表示自变量x i的回归系数标准差.
对5个变量进行Wald检验的结果如表2所列,表2分别给出了各自变量的Wald统计值和对应的显著性概率,将其用于回归系数的显著性检验,判断各自变量是否应该包含在模型中.
表25个自变量的显著性检验
T ab.2Significance test on five independent variables
道路等级统计值
行程
速度
延误比
停车
时间
停车
次数
出入口
(信号)
密度
快速路Wald18214516155901171113240197 S i g.¹0001679012501347
主干路Wald130140401119010360102901057 Sig.001730184901801835
次干路(含支路)Wald120111901099010330101801035 Sig.00153015460162901635
注:¹Sig.代表显著性概率.
对于快速路而言,行程速度、延误比的显著性概率小于0105,两者在统计上显著;而停车时间、停车次数和出入口密度的显著性概率均大于0105,其作用在统计上不显著,对预测因变量的贡献不大,不应该作为自变量进入模型.对于主干路、次干路(含支路)而言,延误比、停车次数、停车时间、信号密度的作用在统计中均不显著,因此仅保留行程速度作为自变量构建模型.进一步分析快速路存在两个自变量的合理性,在95%置信度水平下,行程速度的Wald统计值1781517,延误比的Wald统计值211174,均大于31841的阈值,显著性概率均为0,两者在统计上均是显著的.但是,延误比的Wald统计值远小于行程速度的Wald统计值,其统计性不如行程速度显著.同时,延误比的回归系数标准误差值为181768,与行程速度的回归系数误差值相比过大,置信区间范围较宽,因此淘汰延误比,仅保留行程速度一个自变量.
综上所述,对各等级道路均仅采用行程速度作为自变量引入到评价模型,重新对模型进行/比例性0检验,结果是快速路、主干路、次干路(含支路)的V2分别为14781806,181057,231847;自由度都为3;Sig.全为01000.从中可以看出,对于快速路而言, L.R.的V2统计值为14781806,显著性概率小于0105,L.R.的V2统计性不显著,符合累积Log istic 回归模型/比例性0假设条件的要求,表明仅采用行程速度的累积Log istic回归模型是适用的.而对于主干路、次干路(含支路)而言,也都符合累积Logis-tic回归模型的/比例性0假设条件.
114道路拥堵强度评价模型
快速路、主干路和次干路的各等级道路Log istic 回归模型的预测概率如图2所示,该图表明了在不同行程速度状态下各类拥堵发生的概率.
以行程速度作为自变量,采用极大似然法求解各等级道路的拥堵强度Log istic回归模型的计算公式如下.
快速路
ln
p1
1-p1
=61803-01348V
ln
p1+p2
1-p1-p2
=101234-01348V
ln
p1+p2+p3
1-p1-p2-p3=131552-01348V
ln
p1+p2+p3+p4
p5=181858-01348V
(4)
主干路
54北京交通大学学报第32卷ln
p1
1-p1
=21340-01235V
ln
p1+p2
1-p1-p2
=41263-01235V
ln
p1+p2+p3
1-p1-p2-p3
=71381-01235V
ln p1+p2+p3+p4
p5=1016-01235V
(5)
图2各等级道路拥堵强度评价模型的预测值
F ig.2Estimated value of cong est ion intensity
by measurement models for different classes of roads
次干路(含支路)
ln
p1
1-p1
=21354-01308V
ln
p1+p2
1-p1-p2
=51225-01308V
ln
p1+p2+p3
1-p1-p2-p3=71408-01308V
ln p1+p2+p3+p4
p5=101715-01308V
(6)
式中:V表示每分钟的动态行程速度,km/h.2模型检验
模型构建后需要对其有效性进行检验.本文将采用两种检验方法:一种是模型的统计检验,采用拟合优度评价模型理论上的有效性;二是实测数据的检验,通过对比观测值和预测值来评价模型应用中的有效性.
1)模型的统计检验.由于传统的Pearson检验不适用于因变量为分类变量的情况,本文采用了类R2指标来评价模型的拟合优度.相应指标分别为: Cox和Snell的类R2和Nagelkerke的类R2[9].当自变量与因变量完全无关时,类R2值趋近于0;而当回归模型能够全部准确预测时,类R2趋近于1.
通过计算,快速路的Cox和Snell的类R2值为0188,Nag elkerke的类R2值为01,主干路和次干路(含支路)的类R2均大于0170,这两个类R2值说明拥堵强度评价模型的拟合优度较高.而快速路由于交通流相对稳定,拥堵强度的判别结论更加趋于一致,其拟合效果优于其他类型道路.
2)实测数据的检验.将实测交通运行状态数据代入评价模型,计算拥堵强度的预测值并和观测值对比,计算结果如表3所示.总体而言,4个等级道路拥堵强度的总体预测准确率达到73139%,模型预测结果比较准确,可信度较高.快速路、主干道、次干路(含支路)模型总的预测准确率分别达到了78141%、136%和59102%.
表3实测数据的预测准确率
T ab.3Est imation accuracy r atio o n testing data 道路
等级
样本统计
严重
拥堵
中度
拥堵
轻微
拥堵
畅通
非常
畅通
共计快
速
路
观测量4132101795002731575预测准确量38716211540711235
准确率/%9477816078主
干
路
观测量9865858854390预测准确量8728595027251
准确率/%43695750次干路
(含支路)
观测量7466555654305预测准确量4738263336180
准确率/%5848596759注:观测量与预测准确量的单位均为个.
各等级道路拥堵强度的实测数据观测值与模型预测值的散点对比如图3所示.图3(a)代表快速路的结果,快速路模型总的预测准确率较高,拥堵预测准确性较其他等级的道路高约14%~17%.其中,严重拥堵类的预测准确率最高,非常畅通类最低,这是因为严重拥堵状态下车辆行驶稳定,速度差异不大,人对拥堵的感受相对一致.而主干路、次干路(含
55
第6期刘梦涵等:基于累积Log istic回归道路交通拥堵强度评价模型
支路)的结果如图3(b)和图3(c)所示,与快速路相比,非快速路的预测准确率更低,这主要因为非快速路的交通运行受信号灯影响,交通流运行干扰较为
严重,人们对拥堵强度的判别所考虑的因素更加复杂,对拥堵的感受差异较大
.
(a)快速路(b)主干路(c)次干路(含支路)
图3 各道路等级观测值与预测值对比
Fig.3 Comparison of estimated value versus obser ved value on different classes of roads
3 结论
通过上述研究,本文形成以下主要结论:
1)将累积Logistic 回归引入到拥堵强度评价,针对不同等级道路分别构建了道路交通拥堵强度评价模型,能够较为准确地反映人们所感受的拥堵严重程度.
2)通过对道路交通拥堵强度评价模型进行似然比检验,发现其符合/比例性0的假设条件,因此采用累积Log istic 回归方法是适用的.
3)通过采用Wald 统计量对不同自变量进行显著性检验和筛选,发现行程速度自变量能够很好地解释拥堵强度的变化.
4)通过对模型的有效性进行检验,发现模型的拟合优度大于0170,对实测数据的预测准确性达到73139%,因此该模型能够有效用于道路交通拥堵强度评价.
总体而言,本文所提出的道路交通拥堵强度评价模型能够较为准确地反映道路的拥堵严重程度,但模型的预测结果仍存在一定的差异性,主要原因在于:人们对拥堵强度感觉的差异、道路条件的差异及不同的交通需求状态等影响因素.在将来有必要深入分析上述因素对拥堵强度的影响,进一步完善评价模型.参考文献:
[1]Pisar ki A.Summary of the Recommendations of the Workshop
on Nati onal U rban Congestion Monitoring[R].U.S.Depart -
ment of Transportation ,Federal Highway Administration,Of -fice of Highway Information M anagement,1990.
[2]F eder al T ransit Administration.Joint FHWA/FT A Reg u -lations[R].M anag ement and M onitoring Systems,49C.F.R.Part 614,1993.
[3]Lo max T ,T urner S,Shunk G,et al.Quantifying Conges -tion.Volume 1:Final Report [R ].T ex as T ransportation Institute,T ransportation Resear ch Board,1997.
[4]T urner S M.Ex aminatio n of Indicators of Congestion Lev -el[J].T ransportation R esearch Recor d,1992,1360:150-157.
[5]T aylor M.Ex ploring the Natur e of U rban T raffic Conges -tion:Concepts,Parameters,T heories and M odels [C]M P roceedings of the 16th Australian Road Research Board,V ol.16,1992.
[6]Schrank D.T he 2007U rban M obility Report[M ].T ex as
T r anspor tat ion I nstitute,the T ex as A&M U niversity Sys -tem,2007:138.
[7]Vaziri M.Development of Highway Congesti on Index with
Fuzzy Set M odels [J].Journal of Transportation Research Record Transportation Research Board,2002,1802:16-22.[8]Hamad K ,K ikuchi S.A M easure of T r affic Cong estion:A
F uzzy Infer ence A ppro ach[C]M the 81st Annual M eetings of the T ransportation R esearch Board,Washington, D.C,2002.
[9]王济川,郭志刚.L ogistic 回归模型-方法与应用[M ].
北京:高等教育出版社,2001.WA NG Jichuang ,
GU O Zhig ang.
Logistic R eg ression
M odels -M ethods and Applications[M ].Beijing :Higher E -ducation Press,2001.(in Chinese)
56
北 京 交 通 大 学 学 报 第32卷
