
作者简介:凌志刚(1976 ),男,湖南岳阳人,博士研究生,主要研究方向为图像处理、信息融合、机器学习(z gli ng_hunan@126.co m );赵春晖(1973 ),男,陕西西安人,讲师,主要研究方向为人工智能、信息融合、图像处理;梁彦(1971 ),男,博士后,主要研究方向为复杂动态大系统建模、估计、控制与仿真、信息融合、信息感知与控制、图像理解;潘泉(1961 ),男,教授,主要研究方向为控制理论与应用、多目标跟踪与识别、信息融合、图像处理、智能信息处理、生物信息学;王燕(1983 ),女,河北石家庄人,硕士研究生,主要研究方向为图像处理、智能监控.
基于视觉的人行为理解综述
*
凌志刚,赵春晖,梁 彦,潘 泉,王 燕
(西北工业大学自动化学院,西安710072)
摘 要:基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、
人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程:特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。
关键词:特征选择;运动表征;行为识别;高层行为与场景理解
中图分类号:TP391 4 文献标志码:A 文章编号:1001 3695(2008)09 2570 09
Survey on v i si on based hum an acti on understandi ng
L I NG Zhi gang ,
Z HAO Chun hu,i L I ANG Y an ,PAN Q uan ,W ANG Y an
(C olle ge of Au to ma tion,N orthw est ern P ol y t echnical Universit y,X i an 710072,China )
Abstract :H u m an m ove m ent anal ysis fro m vi deo sequences i s an acti ve research area i n compu ter vi sion and hu m an moti on
understand i ng is a future directi on of prospecti ve study as it has many potential appli cation do m ai ns such as s m art s urveillance ,human co mputer i nterface ,virtual realit y contend based vi deo i ndexi ng ,etc .H u m an acti on understand i ng is generall y di vided into three f unda m en tal sub processes :feature extraction and m oti on representati on ,activit y recogniti on and higher l evel activit y and scene understand i ng.This paper anal yzed t he state of t he art i n hu m an acti on understand i ng i n detail fro m t h ree funda m en tal processes .A t t he end ,provi ded and anal yzed so m e detailed d iscussions on vital proble m s and future directi ons i n hu m an ac ti on understand i ng .Key words :feature extraction ;moti on representati on ;acti vity recogn ition ;h i gh level activity and scene understand i ng
0 引言
近年来,人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。目前,在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署(D efense A dvanced R esearch P ro jects A gency ,DARPA )设立了视觉监控重大项目VSAM (v is ua l surveillance and m on itor i ng )[6],主要研究用于战场及普通民用场景监控的自动视频理解技术;实时视觉监控系统W 4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟F ra m e w ork5程序委员会设立重大项目ADV IS OR 系统[8],旨在开发一个公共交通(如地铁、机场)的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000年,DARPA 又资助了H I D (hum an identifi cation at a distance )计划[9],其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别,从而增强国防、民用等场所抵御恐怖袭击
的能力;英国雷丁大学(U nivers it y o f R eading )[10]先后开展了
R E A SON (robust m ethods for m onitor i ng and understanding peop le in pub lic spaces)、ET ISE (eva l uati on of v i deo scene understand ing)、ISC A PS(i n teg ra ted surve illance o f crow ded a reas for public secur ity)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等;此外还有能够对人进行跟踪与行为理解的实时系统P fi nder(person fi nder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目AV I T RACK (a ircra ft surroundi ngs ,
ca tego rized veh icles &i ndi v iduals
track i ng fo r apron s acti v ity mode l i n terpretation &check)[12]等。国内在该领域的研究起步相对要晚,但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面,一些国际权威期刊如PAM I 、IP 、IJ CV 、CV I U 、I VC 和重要的学术会议如CVPR 、I CCV 和ICPR 等将智能化视频监控技术研究,尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。
人运动视觉分析是利用计算机技术从包含人的图像序列
第25卷第9期2008年9月 计算机应用研究Application R esearc h of C o m puters V o.l 25N o .9
Sep .2008
中检测、分类、跟踪人,并对其行为进行理解与描述。其中运动检测
[16~18]
、目标分类
[19]
、跟踪
[20~23]
属于视觉分析中的底层和
中层处理部分(有兴趣的读者可参考文献[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目标当前处于哪种行为模式,并利用语言进行描述,以及判断该行为是否属于异常行为,其属于高层处理部分。当前,人行为理解与描述受到了广泛关注,发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是中像素测度与行为描述之间的桥梁,是使计算机向更加人性化(从 l ooki ng at peop l e !向 understanding people !)
转变的关键所在。
通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程
[30~33]
(图2)。特征提取与运动表征是在
对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的
理解。
随着人行为理解研究的不断发展和深入,对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管A ggar w a l [24]、G av rila [25]、M oesl und [26]和H u [27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向,促进行为理解技术的发展,本文从行为理解的一般性处理框架出发,
对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。
1 特征选择与运动表征
在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。1 1 特征选择
表1为2000∀2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见,目前行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。
表1 行为理解使用特征统计分析表
%
年份外观形状特征外观模型运动特征
混合特征
时空特征
2006∀2007.53617304132004∀2005
381441162002∀200339842472000∀2001
43
7
36
10
4
基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止
姿态,然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定,对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序列中提取出目标运动特性(时分)信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明,运动特征具有静态形状特征无法比拟的优势,即使是在远距离或恶劣的能见度情况下和最小运动系统∀∀∀M LD (m ov i ng li ght d i sp lay)[48],人能够根据运动模式轻松地区别和识别目标的运动类型,而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征,所以,为了充分利用形状特征和运动特征各自的优势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也有学者将其归类于运动特征。1 2 运动表征
人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成基于外观形状特征的和基于运动特征的。
1 2 1 基于外观形状特征的运动表征方法
依据是否利用人体形状模型的先验知识,基于外观形状的
#2571#第9期凌志刚,等:基于视觉的人行为理解综述
基于模型方法的核心思想是首先建立描述空间中人体形状模型;然后利用目标的形态特征和关节位置等信息,将模型与输入图像序列在首帧匹配,在后续帧的跟踪过程中,定义损失函数描述输入图像数据与模型之间的近似关系,并采用人体运动参数条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法集合了先验模型知识和当前输入,能够适合复杂行为的行为理解;但通常要求首先选择模型,初始化较难、计算量大,而且由于人运动的高自由度,容易产生局部最小值,很难找到全局最优且鲁棒的模型参数,此外由于在后续的跟踪中存在累计误差,不能分析、跟踪长序列运动。
基于外观方法并不试图恢复人体运动的结构模型,而是直接从图像中提取物体的二维空间信息,如高度、宽度、侧影轮廓和颜色等,并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。在这类方法中,形状分析理论常用来描述运动目标的形状变化特征(有关形状分析请参考文献[62])。常用的形状分析方法有质心∀边界距离[34,36]、傅里叶描述符[41]、形状上下文[42]和统计形状分析[32,35,63,]等。其中,质心∀边界距离方法使用一维函数编码从形状的质心到形状边界点的距离,这种描述符简单但不能精确地对非凸起形状进行编码,如质心与一个边界点之间的距离连线可能与另一个边界点相交,造成细节的丢失。Poppe等人[41]提出用傅里叶描述算子恢复人姿态;其思想是用固定的边界采样点对人体二维侧影轮廓进行采样,并对采样点进行傅里叶变换,利用变换后傅里叶系数的低频部分描述形状的大体特征,用高频部分来反映形状的微观特征即详细特征。由于傅里叶描述算子只能描述单个闭环曲线,这种方法一般用于描述外部边界点;在噪声环境下,傅里叶转换性能不是很好。M or i和M a lik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来恢复人体运动的三维姿态。一个点的形状上下文算子就是试图捕捉点集中其他点相对于该点的分布,它是一种基于内部或外部边界采样点的局部描述算子。傅里叶描述算子和形状上下文算子具有平移、旋转和尺度不变性。与傅里叶算子和形状上下文描述算子不同的是,H u[66]提出一种基于区域的不变矩理论,并构造出共七个不变矩,它们具有平移、旋转和缩放不变性,目前已经广泛应用于图像的模式识别中。Poppe和Po el[67]对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮廓描述上的性能进行了比较,并且实验结果表明傅里叶描述算子和形状上下文直方图在形变侧影描述上比H u更具有优势。20世纪70年代后期,D ryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[]进一步讨论了投影形状和不变量,以及形状模型、特征和它们各自在高层视觉中的作用。Ji n等人[32]用统计形方法描述每帧中的目标轮廓,并用完全P ro crustes均值形状作为极点,构造一个与数据集近似的线性空间∀∀∀切空间;然后用这个线性化的轮廓作为训练数据去学习动态系统、估计系统参数,从而识别人行为。
此外,目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。N.V as w an i等人[68]提出用形状变化的动态特性来建模和分类动作;L i u等人[69]提出在傅里叶描述算子的基础上建立自回归模型学习形状变化的动态信息;基于统计形状理论,V eeraraghavan等人[35]提出用自回归模型(AR)和平稳自回归模型(ARMA)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状序列之间的相似性测量,取得了较好的分类效果。
基于外观特征方法不要求特定的模型,比较简单,能够适用于大量的环境条件下。但外观特征方法由于没有模型先验信息,很难建立连续帧之间的特征对应关系,并且很难区别信号和噪声,一般对噪声敏感。此外,外观特征受视角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。
1 2 2 基于运动特征的运动表征方法
基于运动特征的表征方法可以细分为:
a)基于预先确定区域(如腿、头)跟踪的运动轨迹分析方法。其关键是运动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且在随后图像帧中进行跟踪,多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹;然后对轨迹进行参数化处理,如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性。
b)基于非预先确定的目标区域运动分析方法。其最典型的代表是光流法[44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。它通过计算图像序列中连续两帧亮度信息来得到,指的是图像亮度模式的表观(或视在)运动(apparent m oti on)。例如Zhu等人[47]提出用光流直方图来描述动作的运动信息,然后用支持向量机作分类器识别运动员的击球动作。光流法在无须背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪。光流计算的基本等式是假设相邻两幅图像中对应两点的灰度不变得到的。在这个假设条件下首先要求两幅图像相邻时刻之间的间隔是很小的(几十毫秒之内),并且要求场景光照均匀。此外光流法的计算量较大。
时空特征不仅包含人动作姿态的空间信息(人体躯干和肢体的位置、方向等),而且还包含运动的动态信息(人体的全局运动和肢体的相对运动),从而避免了光流场计算可能遇到的问题(包括孔径、全局平滑性约束、奇异性等)和外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bob i ck和D av i s[52]集合时空运动特征,提出了用运动历史图(MH Is)和运动能量图(M EIs)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反映运动发生的位置。文献[53,54]则提出用迭代滤波(recursi ve filte ri ng)和帧分组(fram e g roup i ng)来描述运动信息。用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像,其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度;帧分组方法思想是单独分类视频切片中的每个滤波图像,然后用多数投票方法分类这些已标志的滤波图像的运动类型。
基于运动特征和外观形状特征表征的方法都有各自的缺点,基于运动特征能够描述人的近似运动方向和轨迹等,但很难准确、稳定地捕捉目标运动特性;另一方面,外观形状特征能
#
2572
#计算机应用研究第25卷够描述人的姿态信息,但由于没有运动信息,描述行为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人行为进行建模和识别。
2 行为识别
行为识别问题可以简单地看做是时变特征数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配,那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样,学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。目前,行为识别方法一般可以分成静态识别和动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列,其常用的方法有模板匹配方法;动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态,这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hidden M arkov models,HMM s)、动态贝叶斯网络(dyna m i c B ayesian net w ork,DBN)等。这些方法可以总归为基于状态转移的图模型方法。
2 1 基于模板匹配方法
基于模板匹配方法是用从输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似度比较,选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果。Bob ick和D av is[52]将图像序列目标运动信息转换成运动能量图像(M EI)和运动历史图像(MH I),采用马氏距离度量测试序列与模板之间的相似性;M asoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投影到特征空间,然后用H ausdo rff 距离度量测试序列与参考序列之间的相似性。此外,还有学者采用P ro crustes距离[50]来度量测试序列与模板之间的相似性。这些最近邻方法尽管在一定程度上反映了运动的时分关系,计算量小,但并没有对运动的时分条件进行建模,鲁棒性较差。为此,V eeraraghavan等人[35]用动态时间规整(dyna m ic ti m e w arpi ng,DTW)来匹配运动序列。DTW是一种时变数据序列匹配方法,常用于微生物学的DNA匹配、字符串和符号的比较以及语音分析[77]。DTW算法的思想是给定参考模板特征矢量序列与输入特征矢量序列,寻找一个最佳的时间规整函数,使得输入序列的时间轴映射到参考模板的时间轴上总的累计失真最小。对DTW而言,即使测试序列模式与参考序列模式的时间尺度不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列与参考序列之间的模式匹配。DTW具有概念简单、算法鲁棒的优点,能够对图像序列进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的距离来识别动作和步态,取得了很好的分类结果。然而, DTW算法计算量较大,缺乏考虑相邻时序之间的动态特性,而在实际中,运动序列中相邻序列在时间和空间上有高度的相关性。
基于模板匹配方法计算复杂度低、实现简单,但缺乏考虑运动序列中相邻时序之间的动态特性,对于噪声和运动时间间隔变化敏感。
2 2 基于状态转移图模型方法
基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的一个节点或状态,对应于各个姿势或运动状态节点之间的依存关系通过某种概率联系起来,这样任何运动序列可以看做在图中不同节点或状态之间的一次遍历过程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝叶斯网络[96~102]、人工神经网络[45,103]、有限状态机[104,105]和置信网络[106]等。本文对前三种常用方法进行总结分析。
2 2 1 隐马尔可夫及改进模型
与DT W相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。HMM s用马尔可夫过程建立相邻实例之间的相互关系,并假设观察序列由固定个数的隐状态构成的隐过程决定,是一种随机状态机。HMM s的使用涉及到训练和分类两个阶段。训练阶段包括指定一个隐马尔可夫模型的隐藏状态数,并且优化相应的状态转换和输出概率,以便于产生的输出符号与对特定运动类别之内所观察到的图像特征相匹配。受HMM s在语音数据分析[80]成功应用的影响,研究人员将HMM s用于视觉识别[73,81~83]。Breg l er[81]基于人体动力学在不同抽象等级的统计分析,提出了用一个综合性的网络来识别人的运动:在底层处理阶段,以混合高斯模型来估计基于运动、彩色相似度和空间接近程度等小区域块,不同的身体部分区域在图像序列中被跟踪;在中层处理阶段,具有一致运动特性的区域被匹配为动力学系统中的简单运动(如行走被认为是两个简单运动的组成:一个是腿的支撑,一个是腿在空中的摆动);在高层处理阶段,HMM s被用来作为这些中级动力系统的混合模型以表达复杂的运动,识别过程通过最大化HMM s的后验概率来完成。实验表明,在学习能力和处理未分割的连续数据流方面,HMM s比DTW有更好的优越性。
HMM s有很强的输出性假设,其信号处理过程是一个单路马尔可夫过程,不能处理多个且相互依存的序列,导致其不能考虑上下文的特征,了特征的选择;而且其拓扑结构是事先给定的,它的模型参数需要用E M算法来估计(Bau m W elch算法);对观测矩阵的初始值比较敏感,如果初始值选择不当,会造成概率函数的局部最大值。另外,分类模型不灵活,不能处理运动中分层与共享结构。为了识别复杂动作与人们之间的交互行为,Brand等人[84]提出一种耦合隐马尔可夫模型(coupled hidden M arkov m ode l s,C HMM)[84~86]来建模行为中两个相互关联的随机过程,并用CHMM对手势进行识别。结果表明,与传统HMM s相比,CHMM具有更好的分类效果,计算速度快,而且对初始条件不敏感。F i ne等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模型(hierarchica l h i dden M arkov mode,l HHMM)。HHMM具有多层隐马尔可夫模型的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。N guyen等人[88,]采用HHMM识别人的行为,并取得了很好的分类效果。此外还有抽象隐马尔可夫模型(abstract hiddenM arkov mode,l AHMM)[90]、可变长马尔可夫模型(var i able length M arkov m ode,l VL MM)[91]、熵隐马尔可夫模型[92,93]和分层隐马尔可夫模型(layered h i dden M a rkov m ode,l LHMM)[94,95]等也被用于复杂行为识别。
2 2 2 动态贝叶斯网络
由于HMM s不能有效处理三个或三个以上的过程[86],学者提出了HMM s的推广方法∀∀∀动态贝叶斯网络(dyna m i c B ayesian net wo rks,DBN s)[96]。动态贝叶斯网络是一
#
2573
#
第9期凌志刚,等:基于视觉的人行为理解综述种对随机过程描述的有向图解,通过网络拓扑结构反映变量间的概率依存关系及其随时间变化的情况,不受马尔可夫链的链状结构约束,因此不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模而不仅仅是一个隐藏状态变量,而且考虑了各个时刻间的转移概率,能够很好地反映特征之间的时序关系,适用于不确定性和概率性事物。所以动态贝叶斯网络逐渐成为人行为理解研究中一个有力的数学工具[97~102]。Pa rk和A gga r wa l[97]提出用层级贝叶斯网络方法识别两个人之间的动作。该方法在贝叶斯网络的低层估计被跟踪身体部分的姿态;然后在贝叶斯网络高层估计整个身体的姿态;最后用动态贝叶斯网络处理综合多个身体部分组成的状态。M uncaster等人[102]提出一个一般的d 层动态贝叶斯网络识别复杂的事件,在每一层用确定性的退火聚类算法自动检测观测层的状态。文献[98,99]则用贝叶斯网络识别停车场和地铁监控环境下的复杂行为。
贝叶斯网络的主要优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。动态贝叶斯网络还可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系,而不影响训练算法本身,因此具有良好的可解释性,其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链,贝叶斯网络训练比较复杂。
2 2
3 神经网络
人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理,在分析时变数据时具有很大的优势。Bucco li e ri等人[103]用神经网络对轮廓进行分析来识别人的姿态。由于神经网络通常需要用大量的数据来训练网络,研究学者在神经网络的基础上提出了时延神经网络(ti m e delay neural net wo rk,TDNN)。时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能;同时,时变序列的前述值被用来预测下一个值。由于大量数据集成为可能,时延神经网络的重点就可以放在时分信息的表达,这样由此导出的神经网络模型适合应用于处理序列数据。Y ang和A hu j a[45]应用时延神经网络于手势识别,并取得了较高的识别率。
除了上述两类方法,支持向量机(s upport vector m ach i ne, SVM)由于能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题,同时可以避免神经网络结构选择和局部极小点问题,成为20世纪90年代末发展最快的研究方向之一,并且在行为理解中也得到了充分的应用[47,54,107~109]。Cao等人[54]用SVM建立滤波图像分类器来对运动分类。文献[109]提出一种基于光流直方图运动描述算子,并用S VM训练分类器识别运动员的动作。
3 高层行为与场景理解
尽管用上述行为识别方法能够识别较复杂的动作,但要理解场景中在发生什么事情!等复杂行为与事件,不仅需要解释和理解视觉输入,还需要场景中相关信息与背景知识,尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上,解释和描述场景图像的内容,包括场景中人与人、人与物体的行为以及它们之间的时空关系,这也称为高层视觉。目前研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作,广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。VSAM、P fi nder和AV ITRACK等系统都具有场景理解与事件检测的功能。目前高层行为与场景理解的方法包括基于规则推理网络[33,105,106,110~113]、随机文法(包括随机上下文无关文法:stochastic contex t free gra mm ar, SCFG)[114~116]、概率状态依存语法(probab ili stic state dependent g ramm ars,PSDG)[117]、因果分析[118]等。
Badler[105]提出一种基于运动动词的分层框架来分析运动。一个运动动词就是一种行为,而这些动词是预先定义在静态图像的规则基础上,用自动状态机建立起行为之间的联系。这种系统理论上可以解释人行为中的复杂事件,但系统仅仅在人工环境中进行测试。K o ji m a和T a mura[111]则提出一种事件框架来识别单个人的动作。首先提取出人体头、身体和手的运动,定义事件帧(case fra m e)来描述动作规则,从而建立起人运动姿态、位置信息与运动概念之间的对应关系。H ongeng等人[112]则提出事件是由动作线程构成,而且每个线程有单个角色执行,每个单一动作线程通过贝叶斯方法,利用角色的轨迹和运动块特性来识别,这样事件可以通过许多在时分上相关的动作线程来表达。R obertson等人[113]组合运动轨迹信息与局部运动描述算子,借助图像特征数据概率搜索方法来描述和识别动作,并用编码场景规则的HMM平滑动作序列,这样通过计算当前动作序列下的HMM概率来识别高层行为。基于规则的方法在动作分析中显示了其优点,但由于某些行为的模糊性,基于规则推理方法很难给每个行为定义准确的规则,而且不同的应用领域定义的规则也不相同。
随机文法由于能够从包括HMM不能同时处理的多个过程中提取出有意思的行为,被用来有效地描述真实场景。Ivanov和Bob i ck[115]提出两步策略来理解自动监控系统中的高层行为和事件。在低层处理部分用HMM检测和识别简单的行为模式,并将输出向量映射为离散语法字母表;在高层部分则采用随机上下文无关文法模型分析、理解低层输出,最终实现行为理解。但这种方法受其语法的上下文无关约束的。复杂的行为,尤其是有目的的行为,其状态通常是前后相关的,也就是下面的行为依赖于当前的状态,这样使得行为并不是上下文无关的。此外,两步识别策略不支持从低层数据到高层理解的在线无缝概率推理。基于这样的缺点,N guyen等人[119]提出用抽象隐马尔可夫记忆模型(abtract hidden M arkov m e m ory m ode,l AHM E M)识别复杂室内环境中人的高层行为。Pa rk和A ggarwa l[118]提出一种事件语义学来表达和识别人之间的交互行为,并用语言学中的动词元结构按每三个代理运动目标一组的结构形式来描述运动。时空用于决策树来识别特殊的交互行为。在这个框架下,人的动作以主语+动词+宾语!结构来自动表达,同时人的交互行为根据人动作之间的因果语义关系来描述。
当前对高层行为与场景理解的研究还很不完善,高层行为与场景理解研究受一些视觉基础问题的束缚,如像素级的分割、遮挡以及处理可变性的能力。目前的研究都是针对特定领域应用的研究,有些只是提取场景信息高层的语义,不可能在任意图像中确定不同的景物。
#
2574
#计算机应用研究第25卷4 行为理解存在的问题与发展趋势
尽管近年来利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展,但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度[24,120]、行为发生的场景和人运动的模糊性(关于行为、事件、状态有着不同的概念)等因素的影响,使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展,其行为理解的研究进展比较缓慢。目前行为理解的研究仍处于初级阶段,即原子动作[29]分析,也就是简单日常标准动作如行走、跳、站起、坐等[30~37]和以人行为为目标的简单事件检测等[97,102,121~123]。其亟待解决的问题和未来的发展趋势有以下几个方面:
a)运动特征选择与表达。如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大,则会增加计算的复杂度;而选择特征过少,又可能不足以识别与理解人行为,而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的[28]。因此,能否借鉴人类的学习、识别与理解机理,定义一个动态特征模型,首先提取有关行为的主要特征,当这些特征不足以完成识别与理解时,系统逐步提取候选的细节特征;另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征[49,124],那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外,提取特征的不稳定性也为行为理解带来很大的困难,但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中,可视信息受干扰,变得敏感不可靠时,声音特征将为基于视频的行为理解提供一个很好的补充[125,126];在遮挡的情况下,基于多摄像机信息融合方法由于能够很好地解决遮挡问题,在行为理解研究[70~72]也将会得到快速的发展。
对于运动特征表征来说,不同复杂程度的运动通常会采用不同的运动表达方法,即使是同一种动作在不同的场合,由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法[127]来表征和分析运动,但计算量较大。
b)行为识别。目前人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少[54],而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如HMM s等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。
c)高层行为与场景理解。行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。
d)行为理解与生物特征识别相结合。在智能安全监控、智能人机交互中,行为理解与生物特征相结合显得更加重要,不但要求系统能够识别被监控对象的当前行为状态,而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别[50]、人脸识别等[128,129]给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。
e)算法评价。一般而言,鲁棒性、准确度、速度是人行为识别的三个基本要求,要求能够快速准确地识别运动且连续地工作,对于如噪声、光照、天气等因素的影响不能太敏感。但目前的识别方法更多关注的是识别率,对鲁棒性和速度两个指标研究要求很少。另外,对行为识别方法没有统一的视频测试序列,大部分研究方法都是具体问题具体分析,是用各自选择的视频序列进行实验分析,无法对提出的算法进行统一评价。
5 结束语
人行为理解已经成为计算机视觉领域一个重要的研究方向之一,在智能监控、人机交互等方面的应用前景引起了广大科研人员的浓厚兴趣。本文从特征选择与运动表征、行为识别方法以及高层行为与场景理解三个方面总结了近年来人行为理解研究现状和进展。其中特征提取和运动表征可以归结为行为建模,即如何描述行为动作。目前的方法需要根据具体实际应用情况,在动作模型描述精确度和计算复杂度中折中,选择适当的方法来对行为建模。本文将行为识别算法细分成模板匹配方法、基于图模型的方法等,同时对各种常用的数据匹配方法进行逐一分析,并且讨论了目前的高层行为与场景理解的研究发展与现状。最后提出了目前行为理解存在的问题和未来的发展趋势。尽管当前行为理解研究取得了一定的进展,但依然处于萌芽阶段,需要提出新的方法来解决相关问题,提高行为理解的性能。
参考文献:
[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,
2002,25(3):225 237.
[2]J A I M ES A,SEBE N.M u l ti m odal hu m an co m puter i n teracti on:a s u rvey
[C]//Proc of I EEE In t ernationalW orkshop on Hum an Co m puter In
teracti on i n C on j uncti on w it h I CCV2005.Beiji ng:[s.n.],2005.
[3]N IJ HOLT A.M eeti ngs,gatherings,and events i n s m art environm ents
[C]//Proc of AC M S I GGRAP H Internati onal Con ference on V i rt u al
Realit y Con tinuum and Its App licati ons i n I ndu stry.2004:229 232. [4]K I TTLER J,BALLETTE M,CHR I ST M AS W J,et a l.Fu sion ofm u l ti
ple cue det ectors f or auto m atic s port s v i deo annotati on[C]//Proc of W ork s hop on S tructura,l Syn t actic and S tatisticalPattern Recogn ition.
2002:597 606.
[5]TJ ONDRONEGORO D,CHEN Y P P,P HAM B.C onten t based vi deo
i ndexing for s ports app lications u si ng integrated m u lti m odal app roach
[C]//Proc of t he13th AnnualACM In ternati onalC on f eren ce onM u l
ti m ed i a.2005:1035 1036.
[6]COLL I NS R,L I PTON A,KANADE T,et a l.A syste m for v i deo sur
veill an ce and m on itori ng:VSAM fi nal report,CMU R I TR 00 12
#
2575
#
第9期凌志刚,等:基于视觉的人行为理解综述
[R].[S..l]:Carneg i eM ell on Un i versity,2000.
[7]HARI TAOGLU I,HAR WOOD D,DAV IS L S.W4:real ti m e s u rveil
l ance of people and their acti v i ti es[J].I E EE T rans on Patt ern Analys is and Machi n e I nt e lli g ence,2000,22(8):809 830.
[8]NAYLOR M,ATT W OOD C I.Annotated d i g i tal vi d eo for i n telli gent
surveill ance and opti m ized retri eva:l fi nal report[R].[S..l]:ADV I SOR Conorti um,2003.
[9]H I D[EB/OL].htt p://www st ati c.cc.gatech.edu/gvu/percep tion//
pro j ects/h i d.
[10]REASON[EB/OL].h tt p://www.cvg.cs.read i ng.ac.uk/.
[11]WREN C R,AZ ARBAYE J AN I A,DARRELL T,e t a l.P fi nder:real
ti m e track i ng of t he hum an b ody[J].I EEE T r ans on Patt ern Analys is and Machi n e I nt e lli g ence,1997,19(7):780 785. [12]BLAUENSTE I NER P,KA M PEL M.V i sual s u rveill an ce of an airport s
ap ron:an overvi e w of t h eAV I TRACK project[EB/OL].h ttp://www.
pri p.t uw ien.ac.at/~ka m pel/papers/b lauoeag m04.pd.f
[13][EB/OL].http://n l pr w eb.ia.ac.cn/.
[14][EB/OL].http://research.m icros oft.co m/as i a/group/vc/.
[15][EB/OL].http://www.ci s.pku.edu.cn/introdu cti on.h t m.
[16]SHE I KH Y,SHA H M.B ayes i an m od eli ng of dyna m i c scen es f or ob j ect
det ecti on[J].I EEE T r ans on Pattern Analysis andM achine I nt el ligence,2005,27(11):1778 1792.
[17]ELGAMMAL A,HAR WOOD D,DAV I S L.Non para m etric m odel for
background subtracti on[C]//Proc of the6t h E uropean C on f eren ce on
C o mpu ter V isi on.Dub lin,Irel and:[s.n.],2000:751 767.
[18]左军毅,潘泉,梁彦,等.基于模型切换的自适应背景建模方法
[J].自动化学报,2007,33(5):467 473.
[19]J AVED O,SHA H M.Track i ng and ob j ect class ifi cati on for au t o m ated
surveill ance[C]//Proc of t he7t h Eu ropean C onference on Co m puter V i s i on.Copenhagen:[s.n.],2002.
[20]CH EN Yun q i ang,RU I Yong,HUANG T S.M u lti cue HMM UKF for
real ti m e contou r track i ng[J].I EEE T rans on Patt ern Analysis and M achine Intelligence,2006,28(9):1525 1529.
[21]YANG Tao,LI S Z,PAN Quan,et a l.R eal ti m e m u l ti p l e ob j ects trac
k i ng w i th occl us i on hand ling i n dyna m ic scenes[C]//Proc of I EEE In ternati onal Con ference on Co m puterV ision and Pattern Recogn ition.
San D i ego,CA:[s.n.],2005.
[22]W ANG Yong zhong,LI ANG Yan,ZHAO Chun hu,i et a l.Adapti ve
mu lti cue ker n el track i ng[C]//Proc of I EEE In t ernationalC onference on M u l ti m ed i a&Expo.2007:1814 1817.
[23]李培华.一种改进的M ean Sh ift跟踪算法[J].自动化学报,2007,
33(4):347 354.
[24]AGGAR WAL J K,CA I Q.H u m an m oti on analys i s:a rev i e w[C]//
P roc of I EEE Non ri gi d and Articu l ated M oti on W or k s hop.P i scata w ay:
IEEE Co m puter S ociety,1997:90 102.
[25]GAVRI LA D M.The vis u al anal ys i s of hum an m ove m en t:a s u rvey
[J].Co m put er V is i o n and I m age Underst anding,1999,73(1):
82 98.
[26]M OESL UND T B,GRANU M E.A s u rvey of co m puter visi on based
hu m an m otion cap t u re[J].Co m put er Vis ion and I m age Under stand i n g,2001,81(3):231 268.
[27]HU W ei m i ng,TAN T ie niu,W ANG L i ang,et al.A s u rvey on vis u al
surveill ance of ob jectmoti on and b ehaviors[J].I EEE Trans on Sys t e m s,Man,and Cyberneti c s PartC:App lication and Rev i e ws, 2004,34(3):334 352.
[28]刘相滨,向坚持,王胜春.人行为识别与理解研究探讨[J].计算
机与现代化,2004(12):1 5,27.
[29]BUXTON H,GONG Shao gang.Advanced vi sual s urveillance usi ng
B ayes i an net w orks[C]//Proc of t h e5t h I EEE I n tern ati ona l
C onfe
rence on Co m puter V i s i on.M assachu s etts:[s.n.],1995.
[30]BREM OND F,T HONNAT M,Z UN I GA M.V i deo und erst andi ng
fra m e w ork for au t o m ati c behavi or recogn ition[J].Behav i o r Re search Methods Journal,2006,38(3):416 426.
[31]A M ER A,DUBO IS E,M ITICHE A.A real ti m e sys t e m f or h i gh level
vi deo represen t ati on:appli cati on t o v i deo s u rve ill an ce[C]//Proc of SP I E I n tern ati on al Sy m pos i um on E l ectron i c I m aging,Con ference on V i sual Co mmun icati on and I m age Process i ng.San ta C lara:[s.n.],
2003:530 541.
[32]JI N N ing,M OKHTARI AN F.H um an m oti on recogn iti on based on sta
ti stical shape analys i s[C]//Proc of I EEE Conference on Advan ced V i deo and S ignal Based Su rveill ance.2005.
[33]ELBASI E,Z UO Long,M EHROTRA K,et a l.C ontrol charts app roach
for scenari o recogniti on i n vi d eo sequen ces[J].Turk J Elec Engin,
2005,13:303 310.
[34]F U JI YOSH I H,L I PTON A J.Real ti m e hum an moti on anal ysis by
i m age s kelet onizati on[C]//Proc of t h e4t h IEEE W orks hop on App li
cati ons of Co m puterV i s i on.1998:15 21.
[35]VEERARAGHAVAN A,ROY CHO W DHURY A K,CHELLAPPA R.
M atch i ng shape sequen ces i n vi deo w ith appli cati on s i n hu m an m ove m ent anal ys i s[J].I EEE T rans on Patt ern Ana l y sis and Machine
I nt e lligence,2005,27(12):16 1909.
[36]CH EN H S,CHEN H T,CHEN Y i w en,et a l.H um an acti on recogn i
ti on u si ng st ar skel eton[C]//Proc of t he4t h ACM Inter n ati on al W ork s hop on V ideo Surveillance and S ensor N et w orks.2006.
[37]WANG Liang,SUTER D.Learn i ng and m atching of dyna m ic s hape
m an i fol d s f or hum an action recogn ition[J].I E EE T rans on I m age P r ocess i n g,2007,16(6):16 1661.
[38]J U S X,BLACKY M J,YACOOBZ Y.C ardboard peop le:a para m ete
rized m od el of articu l ated i m age m otion[C]//Proc of Inter n ati on al
C on f eren ce on Au to m ati c Face and G estureR ecogn i ti on.1996:38 44.
[39]M I TTAL A,Z HAO L i ang,DAV I S L S.H u m an body pose esti m ation
us i ng s il hou ett e shape analys i s[C]//Proc of IEEE C onferen ce on Ad van ced V i deo and S ignal Based Su rveill an ce.2003:263 270.
[40]CORREAL P,CZYZ J,M ARQUES T,et a l.S il houette b ased probab i
li stic2D hum an moti on esti m ati on f or real ti m e appli cati on s[C]// P roc of In ternati onal I EEE Internati onal Con ference on I m age Proce ss i ng.2005.
[41]P OPPE R,P OEL M.Exa m ple based pose esti m ati on i n m onocu l ar
i m ages u si ng co m pact Fourier descri ptors,TR CT I T 05 49[R].En
schede:Un i versit y ofTw en te,2005.
[42]MORI G,M AL I K J.Recoveri ng3D hu m an body con figurati on s using
shape contexts[J].I E EE Trans on Patt ern Ana l y sis and Machine
I nt e lligence,2006,28(7):1052 1062.
[43]CEDRAS C,SHAH M.M oti on based recogn iti on:a s u rvey[J].I m age
and V i s ion Co mputing,1995,13(2):129 155.
[44]BLACK M J,YACOOB Y,J U S X.Recogn izi ng hum an m oti on using
para m eteri zed m odels of opti cal fl o w[M]//M oti on based recogn ition.
[S..l]:K l uw er A cade m ic Pub li s h ers,1997:245 269.
[45]YANG M H,A HU J A N.Recogn i z i ng h and gesture us i ngm otion trajec
tori es[C]//Proc of IEEE Inter n ati on al Con ference on C o mpu ter V i s i on and I m age Understand i ng.1999.
[46]EFROS A,BERG A,MORI G,et a l.Recogn i z i ng acti ons at a d i stance
[C]//Proc of I EEE I n tern ati on al C onference on C o m pu ter V ision.
N i ce,France:[s.n.],2003.
[47]Z HU Guang yu,XU Chang s h eng.A cti on recogn i ti on i n b roadcast ten
n i s vi deo[C]//Proc of the18t h In ternati onal C on f eren ce on Patt ern Recogn iti on.2006.
[48]J OHANSSON G.V is u al percepti on of b iol og i calm otion and a m od el
for i ts anal ys i s[J].Perception and Psychophys ics,1973,14(2):
201 211.
[49]N I U Feng,ABDEL M OTTALEB M.V ie w i nvari an t hu m an acti vity
recogn i ti on based on s h ape and m oti on feat u res[C]//Proc of the6th
#
2576
#计算机应用研究第25卷IEEE International Sy m pos i um on M ulti m ed i a Soft w are Engi neeri ng.
2004.
[50]W ANG L iang,N I NG H ua z hong,TAN T i e n i u,e t a l.Fus i on of static
and dyna m i c body b i o m etri cs f or gait recogn iti on[J].I EEE Trans on
C ircuits and Syste m s for V ideo Techno l o gy,2004,14(2):149
158.
[51]F ANTI C,Z W L N I K M ANOR L,PERONA P.H ybri d models for hu
m an m otion recogn i ti on[C]//P roc of I EEE C on f eren ce Compu t er and Pattern Recogn iti on.2005:1166 1173.
[52]BOB ICK A F,DAVIS J W.The recogn i ti on of hum an m ove m ent usi ng
te m poral t e m p l ates[J].I EEE T rans on Pattern Analys is and M a chine I nt e lligence,2001,23(3):257 267.
[53]MASOUD O,P APANI KOLOP OULOS N.A m et h od f or hum an action
recogn i ti on[J].I m age and Vis i o n Computi n g,2003,21:729 743.
[54]CAO Dong w e,iM ASOUD O T,BOLEY D.On li ne m oti on class ifica
ti on us i ng support vect or m ach i nes[C]//P roc of IEEE I n tern ati on al
C onference on Rob otics and Au to m ati on.Ne w O rl eans:[s.n.],2004.
[55]LAPTEV I,L I NDEBERG T.Local des cri p t ors for spati o te m poral re
cogn iti on[C]//Proc of I n ternati onalW orks h op on Sp ati al C oherence for V i sualM oti on Anal ys i s.P ragu e:[s.n.],2004.
[56]DOLL AR P,RABAUD V,COTTRELL G,et a l.Beh avi or recogn ition
vi a s pars e s pati o te m poral features[C]//Proc of the2nd J o i nt I EEE In ternati onalW orkshop on V i sual Surveillance and Perfor m ance E va l uation ofT rack i ng and Su rveill an ce.2005.
[57]BLANK M,GORELI CK L,SHECHT M AN E,e t a l.A cti on s as s pace
ti m e s h apes[C]//Proc of IEEE In ternati onalC on feren ce on Co m puter V i s i on.B eiji ng:[s.n.],2005.
[58]GAVR I LA D,DAV I S L.3D m odel based track i ng of hu m an upper
body m ove m en t:a m u lti v i e w approach[C]//Proc of I n tern ati on al Sy m pos i um on Co m puter V i s i on.1995:253 258.
[59]ISARD M,BLAKE A.Condensati on cond itional den sit y p ropagation
for vis ual track i ng[J].I nt erna tional Journa l of Co mput er Vis i o n, 1998,29(1):5 28.
[60]DEUTSCHER J,BLAKE A,RE I D I.Arti cu l ated body m oti on capture
by anneal ed parti cle filteri ng[C]//Proc of I EEE C o mpu ter Soci et y
C onference on C o mpu ter V ision and Pattern Recogn i ti on.1998.
[61]N I YOG I S,ADELSON E.Anal yz i ng and recogn izi ng w al k i ng fi gures i n
xyt[C]//P roc of C o m pu ter V is i on and Pattern Recogn iti on.1994:
469 474.
[62]LONCARI C S.A s urvey of s hap e anal ys i s techn iqu es[J].Patt ern
Recognition,1998,32(8):983 1001.
[63]DRYDEN I L,M ARD I A K V.Stati sti ca l s hap e an al ysis[M].[S..l]:
W il ey,1998.
[]DRYEN I.Statistical s hape anal ys i s i n h i gh level vi s i on[C]//Proc of
I MA W orkshop on I m age Anal ys i s and H i gh LevelV i s i on.2000.
[65]BELONGIE S,M AL I K J,P UZICHA J.Sh ape m atch i ng and ob j ects
recogn i ti on us i ng shape con texts[J].I EEE T rans on Patt ern Ana l y s i s and Machine Int elli g ence,2002,24(4):509 522.
[66]HU M K.V is ual pattern recogn ition by m o m en t i nvari an ts[J].I EEE
Trans on I nf or mati o n Theory,1962,8(2):179 187.
[67]POPPE R,POEL M.Comparis on of silhouette s h ape descri p t ors for
exa mp le based hu m an pose recovery[C]//Proc of the7t h I EEE In t er nati on al C on feren ce on Au t o m ati c Face and G esture Recogn ition.
Southa m pton:[s.n.],2006.
[68]VAS W AN I N,CHOWDHURY A R,CHELLAPPA R.Activit y recogn i
ti on us i ng t h e dyna m ics of t h e con fi gurati on of i nteracti ng ob j ects
[C]//Proc of IEEE C on f eren ce on Co m puter V ision and Pattern
Recogn iti on.2003.
[69]L I U Ch e b i n,A HU J A N.A model f or dyn a m ic shape and i ts app lica
ti on s[C]//Proc of I EEE C on f eren ce on C o m pu ter V ision and Pattern Recogn iti on.2004.
[70]P ARK S,TRI VED I M M.A t w o stage m u l ti vie w analys i s fra m e w ork
for hum an acti vity and i n teractions[C]//Proc of IEEE W ork s hop on M otion and V i deo Co m puti ng.2007.
[71]TYAGI A,POTA M I ANOS G,DAVIS J W,et al.Fus i on of mu lti p le
ca m era v i e w s for kern el based3D track i ng[C]//Proc of I EEE W ork shop on M oti on and V i deo Co m puti ng.2007.
[72]Z OUBA N,BREMOND F,THONNAT M,et al.M ulti sensors analys i s
for everyday acti vity m on i tori ng[C]//Proc of the4t h Inter n ati on al
C on f eren ce on Sciences ofE lectron ic,Techno l og i es of Infor m ati on and
Telecomm un i cati ons.2007.
[73]BAS H I R F I,KHOK HAR A A,SCHONFELD D.Ob ject traj ectory
based acti v i ty class ificati on and recogn iti on us i ng h i dd en M ar k ov m o dels[J].I EEE Trans on I m age P r ocess ing,2007,16(7):1912 1919.
[74]ROBERTSON N,RE I D I.A generalm et hod for hum an acti vity recog
n i ti on i n video[J].Co mput er Vis i o n and I mage Unders t and ing,
2006,104:232 248.
[75]YACOOB Y,BLACK M J.Para m et eriz ed m od eli ng and recogn i ti on of
acti vities[J].C o mput er V is i o n and I m age Unders t anding,1999,
73(2):232 247.
[76]CARLSSON S,SULLI VAN J.Acti on recogn iti on by shape m atch i ng to
key fra m es[C]//Proc ofW ork s hop on M odels Versus Exe mp lars i n
C o mpu ter V ision.2001.
[77]RABI NER L,J UANG B.Fund a m entals of speech recogn i ti on[M].
[S..l]:Prenti ceH al,l1993.
[78]M URP HY K P.An i n trodu cti on to graph icalm odels[R].2001.
[79]STENGELM.Introdu cti on to graph i ca lM odel s,h i dden M ar k ovm odel s
and Bayes i an n et w or k s[EB/OL].(2003 02 07).htt p:www.
m arkusstenge.l d e/vari ons/un i/speech/tutori a.l pd.f
[80]RABI NER L R.A t u torial on h i dden M arkov m odels and s elected
app licati ons i n s peech recogn iti on[J].Proc of t he I EEE,19,77
(2):257 286.
[81]BREGLER C.Learn i ng and recogn izi ng hum an dyna m ics i n vi deo se
qu ences[C]//Proc of IEEE Conference on Co m puterV ision and Pat tern Recogn ition.Puert o Rico:[s.n.],1997:568 574.
[82]YAMATO J,OHYA J,ISH IIK.Recogn izi ng hum an acti on i n ti m e se
qu enti al i m ages us i ng h i dden M arkov m odel[C]//Proc of I EEE C on ference on Co m puterV ision and Pattern Recogn i ti on.Cha m pai gn,Illi noi s:[s.n.],1992:379 385.
[83]TOREY I N B U,DEDEOGLU Y,CET I N A E.HMM based falli ng per
son det ecti on u si ng both aud io and vi deo[C]//Proc of IEEE Interna ti ona lW orkshop on H um an C o mpu ter Interaction.Beiji ng:[s.n.],
2005.
[84]BRAND M,OL I VER N,PENTLAND A.Coupled h idd en M arkov
models f or co m p l ex acti on recogn ition[C]//Proc of IEEE In ternati o nal Con ference on C o m pu ter V ision and Pattern R ecogn i ti on.1997:
994 999.
[85]KR ISTJ ANSSON T T,FREY B J,HUANG T S,et a l.Even t coupled
h i dden M arkov model s[C]//Proc of IEEE Internati onal C onference
on M u l ti m ed i a and Expo.2000:385 388.
[86]OLI VER N,ROSAR I O B,PENTLAND A.A Bayesian co m pu ter vision
sys t e m form odeli ng hum an i nteracti ons[J].I EEE T r ans on Patt ern Ana l y s is and Machine I nt e lli g ence,2000,22(8):831 843. [87]FI NE S,SI NGER Y,T IS H BY N.The h i erarch ical h i dden M arkov
mode:l anal ysis and app li cati on s[J].M achine Learning,1998,32
(1):41 62.
[88]NGUYEN N T,P HUNG D Q,VENKATESH S,et a l.Learn i ng and de
tecti ng acti viti es fro m m ove m ent traj ect ori es us i ng t h e h ierach i cal h i dden M arkov model[C]//P roc of C o mpu ter V i s i on and Pattern Re cogn iti on.San D i ego:[s.n.],2005:955 960.
[]KAWANAKA D,OKATAN I T,DEGUCH I K,et al.H ierarc h ical HMM
based recogn ition of human acti v i ty[C]//Proc ofM VA.2005. [90]BUI H H,VENKATESH S,W EST G A,e t a l.T rack i ng and surveil
#
2577
#
第9期凌志刚,等:基于视觉的人行为理解综述l ance i n w i de area spati al environm ents u si ng t h e abstract h i dden M arkov m od el[J].I nternationa l Journa l o f Patt ern Recogniti o n and Artific i a l I nt e lligence,2001,15(1):177 195.
[91]GALATA A,J OHNSON N,HOGG D.Learn i ng vari able l ength M arkov
model s of behavi or[J].C o mput er Vis ion and I m age U nderstan ding,2001,81(3):398 413.
[92]S M I NCH ISESCU C,KANAU JI A A,L I Zh i guo,e t al.C ond i ti on al
model s for contextualhum an m oti on recogn iti on[C]//Proc of t h e10th IEEE Internati onalC on f eren ce on C o m puter V is i on.2005.
[93]BRAND M,KETTNAKER V.D iscovery and seg m en t ati on of acti vities
i n vi deo[J].I EEE Trans on Patt ern Ana l y s is and Machine I nt el
ligence,2000,22(8):844 851.
[94]OL I V ER N,HORVI TZ E,GARG A.Layered rep resen tati on s for hu
m an acti v i ty recogn i ti on[C]//Proc of the4t h IEEE In ternati onalC on ference on M ulti m odal Interfaces.2002:3 8.
[95]Z HANG Dong,GAT I CA PEREZ D,BENG I O S,e t a l.M odeli ng i nd i
vi dual and group actions i n m eeti ngs w i th layered HMM s[J].I EEE Trans on Multm i ed i a,2006,8(3):509 520.
[96]MURP HY K.Dyna m i c Bayesian net w orks:represen t ati on,i nference
and l earn i ng[D].B erkeley:U n i vers it y of C alif orn i a,2002.
[97]P ARK S,AGGAR WAL J K.Recogn iti on of t wo pers on i nteractions
us i ng a h i erarch ical Bayes i an net w ork[C]//Proc ofACM S I G MM In ternati onalW ork s hop on V i deo Surveillance.B er k el ey:[s.n.],2003:
65 76.
[98]DU You ti an,CH EN Feng,XU W en l,i e t al.Interacti ng activit y re
cogn iti on us i ng h ierarch i cal durati on al state dyn a m ic Bayesi an net w ork
[C]//Proc of Pacific R i m C onferen ce onM u l ti m ed i a.2006:185 192.
[99]M OENNE LOCCOZ N,BRE M OND F,THONNAT M.Rec u rrent
B ayes i an net w ork f or the recogn iti on of hum an behavi ou rs v i deo[C]//
P roc of I CVS.Graz:IEEE Co m puter S ociety Press,2003:68 77. [100]GONG Shao gang,XI ANG T ao.Recogn i ti on of group acti v i ti es usi ng dyna m i c p robab ilisti c net w orks[C]//Proc of Internati on alC on f eren ce on C o m pu ter V ision.2003:742 749.
[101]L UO Y i ng,WU T D,HW ANG J N.Ob ject b ased anal ysis and i n t er pretati on of hum an m oti on i n sports vi deo sequ ences by dyn a m ic
B ayes i an net w orks[J].Co m put er V ision and I m age Underst and
i n g,2003,92(2):196 216.
[102]MUNCASTER J,M A Yun q ian.Activit y recogn i ti on us i ng dyn a m ic
B ayes i an net w orks w it h au t omati c s t ate selecti on[C]/Proc of I EEE
W ork s hop on M oti on and V i d eo C o m pu ti ng.2007.
[103]BUCCOLI ERI F,DISTANTE C,LEONE A.H um an posture recogn i ti on u si ng acti ve con tours and rad ial basis fun cti on n eural net w ork
[C]//Proc ofC on f eren ce on Advanced V i deo and S ignal Based Sur
veill an ce.2005.
[104]HONG Peng yu,TURK M,HUANG T S.Gesture m odeli ng and recog n i ti on us i ng finite state mach i nes[C]//Proc of IEEE C on f eren ce on Face and Gest u re R ecogn iti on.2000.
[105]BADLER N.Te m poral scene analys i s:conceptuald escri pti on of ob j ect move m en ts,No.80[R].Toron t o:Un i versity ofT oronto,1975. [106]I NT I LLE S,BOB I CK A.R epresentation and vis ual recogn iti on of co m plex,mu lti agent acti ons us i ng belief net works,N o.454[R].[S.
.l]:M IT,1998.
[107]M OR I T,SH I M OSAKA M,SATO T.SV M b ased human action recog n i ti on and its re m arkab le m oti on feat u res d iscovery al gorit hm[C]// P roc of International Sy m posi um on Experi m en talRoboti cs.2003. [108]LAPTEV S I,CAPUTO B.R ecogn i z i ng hum an acti on s:a l ocal SV M approach[C]//Proc of In ternati onal C on f eren ce on Patt ern Recogn i ti on.2004.
[109]ZHU Guang yu,XU Chang s h eng,GAOW en,et al.Action recogn ition
i n b roadcast tenn is v i deo u si ng opti cal fl o w and support vector m a
ch i ne[C]//Proc of ECCV.2006.
[110]CUTLER R,TURK M.V i e w based i nterpretati on of real ti m e opti cal
fl o w f or gesture recogn iti on[C]//Proc of t h e3rd In ternati onal C onfe rence on Face Ges t u re Recogn iti on.1998.
[111]KOJI M A A,TAMURA T.Nat u ral l angu age descri p ti on of hum an ac ti viti es fro m v i deo i m ages bas ed on con cept h i erarchy acti ons[J].I n t ernationa l Journa l of Co m put er V is i o n,2001,50:171 184. [112]HONGENG S,NEVATI A R.M u lti agen t even t recogn ition[C]//Proc of Inter n ati on alC onferen ce on C o m pu ter V ision.2001:84 91. [113]ROBERTSON N,RE I D I.Behavi or unders t and i ng i n vi d eo:a co m
b i ned m ethod[C]//Pro
c of the10t h I EEE Internati onal C onference
on C o m pu ter V ision.2005:808 815.
[114]PYNADATH D V,W ELLMAN M P.G eneraliz ed queri es on probab i li stic con t ex t free gra mm ars[J].I EEE T rans on Pattern Analysis and M achine Int elligence,1998,20(1):65 77.
[115]I VANOV Y,BOB I CK A.Recogn iti on of vis ual acti vities and i n terac ti on s by stoc h asti c pars i ng[J].I EEE Trans on Patt ern Recogniti o n and M achine Int elligence,2000,2(8):852 872.
[116]RYOO M S,AGGAR W AL J K.Recogn iti on of co m pos ite hum an acti vities t h rough con text free gra mmar b ased represen t ati on[C]// P roc of IEEE C o m pu ter Soci et y Con ference on C o mpu ter V i s i on and Pattern Recogn iti on.2006.
[117]PYNADATH D V,W ELL M AN M P.Probab ilistic st ate dep endent gra mm ars for plan recogn iti on[C]//Proc of the16t h C on f eren ce on Uncert a i nty i n A rtifici al Intelli gen ce.S an F rancisco,CA:[s.n.],
2000:507 514.
[118]PARK S,AGGARWAL J K.E vent se m an tics i n t w o person i n terac ti on s[C]//Proc of I n tern ati on al Con ference on Pattern Recogn ition.
C a mb ri dge:[s.n.],2004.
[119]NGUYEN N T,BU IH H,VENKATES H S,e ta l.R ecogn i s i ng and m o n i tori ng h i gh l evel beh avi ours i n co mp lex s pati al environm ents[C]// P roc of I EEE Co m puter V isi on and Pattern Recogn i ti on C anferen ce.
2003.
[120]KA M BHA M ETTU C,GOLDGOF D B,TERZ OPO ULOS D,et al.Non ri g i d m oti on analys i s[M]//H andbook of PRIP:co mpu ter visi on.Or l ando:Acad e m ic Press,1994.
[121]FERRY M AN J,BORG M,TH IRDE D,e t al.Auto m ated scene under stand i ng for airport aprons[C]//P roc of t h e18th Australi an J o i nt
C on f eren ce on Arti fi cial I n telli gence.S i dney:S pri nger V erl ag,2005. [122]B I R
D N D,M ASOUD O,P APAN I KOLOPO ULOS N P,et a l.Detection of l o i teri ng i nd i vi duals i n pub lic tran s port ati on areas[J].I EE
E T r ans on I ntelligentT ransportation Sys t e m s,2005,6(2):167 177. [123]L U S i j un,ZHANG J i an,FENG D D.Detecti ng unattended packages through hum an activit y recogn ition and ob ject ass oci ati on[J].Journal of t he Patt ern Recogn ition,2007,40(8):2173 2184.
[124]OGALE A S,KARAPURKAR A,ALO M ONOS Y.V i e w i nvariant modeli ng and recogn ition of hum an acti ons us i ng gra mm ars[C]//Proc of Internati onal Con ference on C o m puter V i s i on.B eiji ng:[s.n.],
2005.
[125]GATICA PEREZ D,LATHO UD G,ODOBEZ J M,et al.Aud i o vis u al prob ab ilistic track i ng of m u l ti p l e speakers i n m eeti ngs[J].I EEE Trans on Aud i o,Speech,and Language Process i n g,2007,15
(2):601 616.
[126]CR I STAN IM,B I CEGO M,MURI NO V.Aud i o vis u al even t recogn i ti on i n surveillance vi deo sequences[J].I EEE T r ans on Multm i e dia,2007,9(2):257 267.
[127]LIH ong,GREENSP AN M.M u l ti scale gesture recogn iti on fro m ti m e varying con tours[C]//P roc of the10t h I EEE In t ernationalC onference on C o m pu ter V ision.2005:236 243.
[128]高全学,潘泉,梁彦,等.基于描述特征的人脸识别研究[J].自动化学报,2006,32(3):386 392.
[129]CHANG K,BO W YER K,FL YNN P.An evaluati on of mu lti m od al 2D+3D f ace b i o m etri cs[J].I E EE T rans on Pa tt ern Recogniti o n and M achine Int elligence,2005,27(4):619 624.
#
2578
#计算机应用研究第25卷
