苏开娜,乔晓梅
(北京工业大学计算机学院,北京
100022)
摘要:为了保证特征提取的有效性,更完备地描述人体行为序列,提出了一种基于Zernike 矩的人体行为识别
方法.该方法利用规范化的运动历史图像(MHI )进行图像序列的表示,从中提取出基于Zernike 矩的统计描述作为特征向量进行识别.同时,提出了一种利用图像的重建过程确定分类时采用的Zernike 矩的最高阶次的算法.实验中,对8类不同的人体行为进行了测试.应用Zernike 矩特征的分类精度高于用规则矩和Hu 矩作为特征的方法,证明了基于Zernike 矩的人体行为识别方法的有效性.关键词:人体行为识别;运动历史图像;Zernike 矩;图像重建中图分类号:TP 391
文献标识码:A
文章编号:0254-0037(2005)04-0423-04
收稿日期:2004-10-30.
基金项目:北京市自然科学基金资助项目(40031004);北京市教育委员会科技发展基金资助项目(km200310005006).作者简介:苏开娜(1946-),女,北京人,教授.
人体运动的视觉分析近年来在计算机视觉领域中备受关注,一个重要的研究方向就是人体行为识别.
人体行为识别是指对人体的运动模式进行分析和识别,是人体运动分析领域高级视觉的研究[1],在最近几
年里取得了一定的进展.对于人体行为识别,目前主要有3种方法:1)模板匹配的方法;2)状态空间的方法;3)基于模型的方法.这些方法通常在计算代价和行为识别的准确度之间进行折中,故仍需要寻找和开发新的技术以利于在提高行为识别准确度的同时,又能有效地降低计算的复杂度.POIana 等人利用二
维网络的特征进行人的运动识别[2],是一种基于运动的低级特征的方法,识别率较低.Davis 等人采用运动能量图像和运动历史图像解释图像序列中人的运动
[3]
,从中分别提取出7个Hu 矩作为特征向量用于识别阶段的模板匹配[4,5]
.但是他们使用的Hu 矩是由最高三阶的规格化后的中心矩的非线性组合构成的,
虽然简单,但没有完全提取出图像中的信息;而且,它们是非正交的,具有信息冗余性.作者提出了一种新的基于Zernike 矩的人体行为识别方法.人体行为的图像序列首先进行规范化处理,然后经时空上的累加和增强生成一种时空模型,它既能表明运动发生的区域,又能表示运动是如何发生的.从中提取出基于Zernike 矩的统计描述作为特征向量进行识别.提取的特征向量具有正交性,减少了信息的冗余性,而且对尺度、位移和旋转都具有不变性.
1图像序列的规范化
进行图像序列的规范化是为了保证特征提取具有位移和尺度的不变性,因为Zernike 矩不具有这种不
变性-这里,使用图像f (x ,y )
的规则矩m PG =!x !y
x P y G
f (x ,y )来实现平移和伸缩的规范化-平移规范化通过将图像中心平移到质心("x ,"y )得到,伸缩不变性是通过伸缩图像使其0阶矩m 00等于预先定义的值!(目标图像的0阶矩)来实现-因此,图像函数f (x ,y )
可对位移和尺度进行规范化,得到g (x ,y )=f (x /a +"x ,y /a +"y )
其中:"x =m 10/m 00;"y =m 01/m 00;a =!/m #00-第31卷第4期2005年7月
北京工业大学学报
JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
VOI.31NO.4
$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$
JuI.2005
2
基于Zernike 矩的人体行为识别
2.1
运动图像序列的描述
为了描述运动的形式,采用基于图像的方法,用运动历史图像[3]
描述行为序列.若用B (x ,y ,t )表示运动检测后的二值化图像序列,则运动历史图像可由
H !
(x ,y ,t )=!
对B (x ,y ,t )=l max (0,H !
(x ,y ,t -l {
))其他情况计算.其中!表示行为持续运动的时间规范.
可见,运动历史图像中每个像素的亮度都是这一点处运动历史的函数,而且,最近运动的像素的亮度
值最大.它是一标量值图像,对运动方向敏感,灰度的变化体现出行为运动的方向.运动历史图像的生成很好地把运动的空间特征和时间信息都体现在图像中,既在空间上很好地描述了运动发生的位置和区域,也在时间上反映了运动是如何发生的.坐和蹲2类简单行为的运动历史图像如图l 所示.
图l 行为坐、蹲的关键帧及其规范化后的运动历史图像Fig.l
Key-frameS and normaiized MHIS for the actionS
(Sit and Sguat )使用运动历史图像的描述,序列中的行为运动就可用简单的图像向量表示.同时,由于这些图像自身的特点,如果存在自遮挡,或是运动的重叠,那么运动的一部分将会被丢失.然而一般情况下,即小范围遮挡存在的条件下,行为总是能通过运动历史图像来识别的.2.2
基于Zernike 矩的统计特征
用运动历史图像描述行为序列,表示空间仍旧是高维的,需要从特征图像中再进行特征提取用于后期的分类.作者选择正交的Zernike 矩作为图像的统计特征进行特征提取.Zernike 矩的优点在于它的正交性避免了信息的冗余,它的幅值是旋转不变量,因而可用作表示图像的旋转不变特征,这些特征可以很容易地构造到任意高阶.它们进行图像重建的简易性、正交性分离了每一阶矩对重建过程的贡献,将每阶矩的
贡献线性相加就得到了重构图像.以复域Zernike 多项式[6]
为基,Zernike 矩Z nm 的定义为
Z nm =
n +l
!
!
x 2
+y 2
"l
V #nm
(x ,y )f (x ,y )d x d y Zernike 多项式为
V nm
(x ,y )=R nm (x ,y )exp ( m tan -l y
x
)弧度多项式为
R nm (x ,y )=
$n -I m I /2
S 0
(-l )S
(n -S )!
S ![(n +I m I )/2-S ]![(n -I m I )/2-S ]!(x 2
+y 2)(n -2S
)/2
式中:n 为正整数或0;m 为满足n -I m I 为偶数且I m I "n 条件的整数.
对于数字图像,积分可由求和代替
Z nm =
n +l !$x $y
V nm (x ,y )#f (x ,y ),x 2+y 2=l 4
24北京工业大学学报2005
年
为计算给定图像的Zernike 矩,必须将图像中心移到原点并将像素坐标映射到单位圆内(Zernike 多项式在单位圆x 2+y 2=1内正交).落到单位圆外部的像素不参与计算.Zernike 矩的幅值具有旋转不变性[6].与规则矩相比,Zernike 矩的缺点是平移变换和伸缩变换太复杂(但这一点可以通过图像的规范化解决).由于Z n ,-m =Z nm ,
因此,\\Z n ,-m \\=\\Z nm \\,所以可以仅考虑\\Z nm \\,m 0的情况.表1列出了所有从0~12阶的Zernike 矩旋转不变特征及其数目.
表10~12阶Zernike 矩不变量及其数目
Tab.1
List of Zernike moments and their corresponding number of features from order zero to order twelve
阶次矩
矩的数目
0Z 0011Z 1112Z 20Z 2223Z 31Z 3324Z 40Z 42Z 4435Z 51Z 53Z 5536Z 60Z 62Z Z 67Z 71Z 73Z 75Z 7748Z 80Z 82Z 84Z 86Z 8859Z 91Z 93Z 95Z 97Z 99510Z 10,0Z 10,2Z 10,4Z 10,6Z 10,8Z 10,10611Z 11,1Z 11,3Z 11,5Z 11,7Z 11,9Z 11,11612
Z 12,0
Z 12,2
Z 12,4
Z 12,6
Z 12,8
Z 12,10
Z 12,12
7
2.3由Zernike 矩进行图像重建
许多以前开发的特征集的主要缺点就是缺少自动选择该数字的系统方法.作者提出一种利用图像的
重建确定分类使用的Zernike 矩的最高阶次的算法.要确定能表征目标图像的Zernike 矩的阶数,可逐渐增
加阶数来重建图像,直到原图像与重建图像之间的误差小于给定的阈值.此外,这种技术也可用来确定第i 阶矩在图像表示中所起的作用.通过比较由包含与去掉某一指定阶数的矩集所重建的2个图像就可推知该阶矩的信息内容.因而,将原图与其重建图像间的差异作为图像表示能力的测度.由Zernike 矩进行
图像重建的简易性使得可以通过重建过程选取n 值[7].这里选取使得重建图像与原图的差异小于给定的阈值的阶次的最大值n .若由原始二值化图像提取的0~i 阶矩进行图像重构,重建图像)
f i 的表达式为
)
f i (x ,
y )=(F i
n =0
m
Z
nm V nm (!,
")
), x ,y 其中F 表示依次进行3种图像处理:映射到[0,255]
灰度范围内;直方图均衡;进行阈值为128的阈值化.图像表示能力的简单测度是)
f i 与原始二值图像f 的差异,2者间的Hammin
g 距离可用于描述这个差异.
Hamming 距离即为2图间不同的像素数,用H ()
f i ,f )表示图像)
f i 和f 的Hammin
g 距离.若H ()
f i ,f ) #(其中#是预先选定的阈值),则说明已提取了足够的信息,无需再计算更高的阶次,即n =i.
3试验结果
训练阶段,对每类行为用5个人的行为序列确定n .选定阈值#=300像素,#的取值决定了原图与重建图像间的差异不大于10%.实验中对8类不同的人体行为(坐、蹲和图2所示的人体行为)作了测试.表2列出了8类不同人体行为的n 及H ()
f i ,f )的平均值.分析表中数据,最终选择最大的n =12用于识别时的特征提取,即至多计算到Zernike 矩的12阶,至多有47个特征.
5
24第4期苏开娜等:基于Zernike 矩的人体行为识别
图2不同的人体行为的运动历史图像Fig.2
MHIs of the different actions marked
表28类人体行为的!!及"()
#$,#)的平均值Tab.2
Averages of !!and "
()
#$,#)"""for eight actions 行为n !h (f i ,f )行为n !h (f i ,f "")坐11228行为(c )""12207蹲10240行为(d )""122行为(a )9236行为(e )""
10210行为(b )
11
287
行为(f )
12
311
识别阶段采用50个人体行为序列进行测试,其中涉及到不同人、不同视角、远近拍摄以及小面积遮挡等情况.分别使用3种矩特征:Zernike 矩(47个)、规则矩(47个)、Hu 矩(7个)进行了识别实验.对3种矩特征使用相同的分类准则———最近邻分类器,分类的统计结果为:3种不同特征类型Zernike 矩、
规则矩、Hu 矩的识别精度分别为94%、80%和68%.可见,Zernike 矩的性能远远高于其他2种矩特征.
4结束语
作者实现了一种新的基于Zernike 矩特征的行为识别方法,充分利用了Zernike 矩的正交性和矩不变量,使得特征的提取在保证信息量的同时避免了信息的冗余.实验中对8类不同的人体行为进行了测试,得到的分类精度高于用规则矩和Hu 矩为特征的方法.因此,基于Zernike 矩的特征提取用于人体行为识别非常有效.参考文献:
[1]AGGARWAL J ,CAI .Human motion anaIysis :A review [J ].Computer Vision and Image Understanding ,1999,73(3):428-440.[2]POLANA R ,NELSON R.Low IeveI recognition of human motion [Z ].IEEE Workshop on Motion of Non-Rigid and ArticuIated Ob-jects ,Austin ,TX ,1994.
[3]DAVIS J ,BOBICK A.The Representation and Recognition of Action Using TemporaI TempIates [R ].TechnicaI Report ,402.Cam-bridge :MIT Media Lab ,PerceptuaI Computing Group ,1997.
[4]HU M.VisuaI pattern recognition by moment invariants [J ].IRE Trans on Information Theory ,1962,8(2)
:179-185.[5]ROMER RosaIes.Recognition of Human Action Using Moment-Based Features [R ].TechnicaI Report ,BU 98-020.Boston :Boston
University ,1998.
[6]BELKASIM S O ,AHMADI M ,SHRIDHAR M.Efficient aIgorithm for fast computation of Zernike moments [J ].IEEE 39th Midwest
Symposium on ,1996,3:18-21.
[7]BOYCE J F ,HOSSACK W J.Moment invariants for pattern recognition [J ].Pattern Recognition Lett ,1983,1:451-456.
(下转第433页)
6
24北京工业大学学报2005
年
A Framework of the Distributed !-PSML and Its Applications
SU Yi-la 1,
2
,LIU Chun-nian 1(1.Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology ,College of Computer Science ,Beijing University of Technology ,Beijing 100022,China ;
2.College of Information Engineering ,Inner Mongolia University of Technology ,Huhehaote 010062,China )
Abstract :For solving problems in a large-scale distributed Web environment ,we propose the distributed !-PSML
(problem solver markup language ).The distributed !-PSML is an extension of the !-PSML that we have proposed before for complex adaptive ,distributed problem solving ,and can be easily used for automatic reasoning on the Web.By incorporating global information sources from the Semantic Web and social networks with locally operational knowl-edge-data bases in an enterprise portal together for decision-making and e-business intelligence ,the reason of a dis-tributed !-PSML can be implemented.The experimental results show that our considerations are valid by combining global and local information sources and our preliminary solution works well on the semantic Web.Key words :problem solver markup language ;Web intelligence ;semantic Web
(上接第426页)
Recognition of Human Action Using Zernike
Moment-based Features
SU Kai-na ,OIAO Xiao-mei
(College of Computer Science ,Beijing University of Technology ,Beijing 100022,China )
Abstract :To ensure the validity and completeness of feature extraction ,a new method of recognition of human action
using Zernike moments-based features is introduced.In the proposed method ,normalized motion history image for mo-tion representation is valued.Statistical descriptions are then computed from motion history image using Zernike mo-ment-based features for the following recognition.A systematic reconstruction-based method for deciding the highest or-der of Zernike moments reguired in a classification problem is developed.Experiments are conducted using instances of
eight human actions
(i.e.eight classes )performed by different subjects.Experiment results show that Zernike moment features for the recognition of human action are superior to regular moments and Hu monents in the accuracy of classifi-cation.
Key words :human action recognition ;motion history image ;Zernike moments ;image reconstruction
3
34第4期
苏依拉等:分布式!-PSML 语言框架及其应用
基于Zernike矩的人体行为识别
作者:苏开娜, 乔晓梅, SU Kai-na, QIAO Xiao-mei
作者单位:北京工业大学,计算机学院,北京,100022
刊名:
北京工业大学学报
英文刊名:JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
年,卷(期):2005,31(4)
被引用次数:3次
1.Boyce J F;HOSSACK W J Moment invariants for pattern recognition 1983
2.BELKASIM S O;AHMADI M;SHRIDHAR M Efficient algorithm for fast computation of Zernike moments 1996
3.ROMER Rosales Recognition of Human Action Using Moment-Based Features
4.Hu M Visual pattern recognition by moment invariants[外文期刊] 1962(02)
5.Davis J;BOBICK A The Representation and Recognition of Action Using Temporal Templates
6.Polana R;NELSON R Low level recognition of human motion 1994
7.Aggarwal J;CAI Q Human motion analysis:A review[外文期刊] 1999(3)
1.印勇.王建东.金宪刚近似周期运动的人体异常行为识别[期刊论文]-计算机工程与应用 2010(26)
2.叶银兰基于Boosting RBF神经网络的人体行为识别[期刊论文]-计算机工程与应用 2008(13)
3.赵英杰关于通过炉口火焰特征推断钢的化学成分的研究[学位论文]硕士 2007
本文链接:http://d.g.wanfangdata.com.cn/Periodical_bjgydxxb200504019.aspx