
赵朵朵\\章坚武1,郭春生1,周迪2,穆罕默德•阿卜杜•沙拉夫•哈基米1(1.杭州电子科技大学,浙江杭州310018; 2.浙江宇视科技有限公司,浙江杭州310018)
摘要:近年来,自动学习特征的深度学习方法在视频行为识别领域中不断被挖掘探索。在总结了常用的行为识别数据集的基础上,对传统的行为识别方法以及深度学习的相关基础原理进行了概述,着重对基于不同输入内容与不同深度网络的行为识别方法进行了较为全面、系统性的总结、对比与分析。最后,对深度学习在行为识别领域的发展做了总结并展望了未来的发展趋势。
关键词:行为识别;数据集;自动学习;深度网络
中图分类号:TP393
文献标识码:A
doi:10.11959/j.issn.1000-0801.2019286
A survey of video behavior recognition based on deep learning
ZHAO Duoduo1,ZHANG Jianwu1,GUO Chunsheng1,ZHOU Di2,
MOHAMMED ABDU SHARAF ALHAKIMI1
1.Hangzhou Dianzi University,Hangzhou310018,China
2.Zhejiang Uniview Technologies Co.,Ltd.,Hangzhou310018,China
Abstract:In recent years,the deep learning method of automatic learning features has been continuously explored in the field of video behavior recognition.The traditional behavior recognition methods and the underlying principles of deep learning were outlined.Then a number of behavior recognition methods based on different input content and different deep networks was compared and analyzed.Finally,the development of deep learning in the field of behavior recognition was concluded and its future development trend was prospected.
Key words:behavior recognition,dataset,automatic learning,depth network
[亠活动,视频行为识别是一种"读懂行为”,即读*1弓I=
懂视频中的内容并做出一定的判断,是视频理解以各种互动的方式产生的行为是人最基本的的一部分。其最终目的是分析视频中有什么人、收稿日期:2019-08-19;修回日期:2019-12-10
通信作者:章坚武,jwzhang@hdu.edu.cn
基金项目:国家自然科学基金资助项目(No.61772162,No.U1866209);国家重点研发计划资助项目(No.2018YFC0831503);浙江省自然科学基金资助项目(NO.LY16F020016);浙江省重点研发计划资助项目(No.2018C01059,No.2019C01062) Foundation Items:The National Natural Science Foundation of China(No.61772162,No.U1866209),The National Key Research Development Program of China(No.2018YFC0831503),The Natural Science Foundation of Zhejiang Province of China (No.LY16F020016),The Key Research Development Program of Zhejiang Province of China(No.2018C01059,No.2019C01062)
2019286-1综述
在什么时间、什么地方做了什么事情。视频行为识别的难点主要在于:(1)行为持续时间的不确定性以及行为的多速率问题,尤其是速度变化大、行为的起始时间难以确定;(2)行为的多样性,一个人的动作多样,同一个动作不同的人表现不同;(3)背景的复杂性,视频图像视角差异大,分辨率参差不齐,存在遮挡抖动等问题。正是这些难点将专家学者们的注意力从传统的行为识别方法转移到深度网络中。
先构建网络架构学习数据的各层次特征的抽象表征,再通过反向传播(back propagation,BP)算法对构建的模型进行训练的过程叫做深度学习。深度学习作为人工智能(AI)的热门研究领域,能够通过监督学习与弱监督学习自动学习视
•100•频中的动作特征。将其应用于视频行为处理领域可以增强网络表征能力和泛化能力,开展更为高效和精准的视频行为识别工作。
2相关基础
2.1常用的数据集介绍
近年来,为了评估行为识别方法的性能,提升深度学习在视频行为识别中的应用价值,研究者们创建了大量的公开数据集。这对促进人体行为识别方法的研究起到了关键性的推动作用。目前行为识别常用的数据集可分为通用数据集和真实场景数据集两大类,各种常用数据集的详细介绍见表1(2004-2018年)。其中KTH⑴和Weizmann。"]数据集属于通用行为识别数据集,是
表1数据集汇总
名称(年份)简介视频样本数目前最高识别率
KTH⑴(2004年)由25人完成的6类动作:挥手、步行、慢跑、跑步、拍手和拳击。有4个不
同场景
239198.83%[⑷
Weizmann12"31
(2005年)
包含9人完成的10个动作:走、跑、跳、挥手和弯腰等93100%[15-16]
Hollywood2陶⑵09年)含10类场景下的12种行为类别:打架、开车、握手、拥抱、亲吻等。样本均
来自69部Hollywood电影
366978.6%1'71
Olympic sports*51
(2010年)
含16种运动动作,有跳高、跳远等78396.6%问
HMDB51⑹(2011年)含51个类别,一个类别至少含101段视频样本。样本来源于公共数据库、电
影和等
684982.1%[,9]
UCF Datasets (2007年-)(1)UCF-11(2008)【7】(2008年)
有11种行为类别:篮球投篮、与狗一起散步等
160094.5%1201
(2)UCF-50181(2009年)
类别由11种扩展至50种。视频来自,是UCF-11的扩展
667699.98%0】
(3)UCF-101191(2012年)
是UCF-50的扩展,类别由50种扩展至101种。分为五大类:人与人交互、
人与物交互、弹奏乐器、运动及肢体运动
1332098.0%1221
(4)UCF Sports1101(2013年)
含10种运动的类别,有踢足球、举重、跳水等。收集于广播电视频道以及互
联网等的各类运动样本
15096.2%1231
Sports-1M11,1(2014年)包含487种体育运动项目,分为六大类:水上、团队、冬季、球类、对抗、
与动物等运动
113315875.9%[241
Kinetics1*21覆盖700种人类动作,每个动作至少包含600个视频,每一段都来自一个独特650000Top-1:83.5%,(2017年)的视频。动作包括演奏乐、握手、拥抱等Top-5:96.8%1251
Moments in
Time1131(2018年)涉及人物、动物、物体或自然现象,捕捉了动态场景中标记了的3秒视频1000000Top-l:38.1%,
Top-5:65.3%1261
注:Top-1指预测结果中只有概率第…的分类正确才表示预测正确,否则预测错误;Top-5指预测结果中概率的前5巾只要有正确的分类就表示预测正确,否则预测错误
2019286-2-101•电信科学2019年第12期
受试者在受限的场景下做出的一系列动作。这类数据集背景单一、动作种类少,没有包含相机运动,与真实的场景差别很大。真实场景数据集收集于电影、等视频中,由于相机移动、场景不固定且动作类内离散度大而极具挑战性。它包括Hollywood"l、Olympic sports151、HMDB51[叭UCFE叭Sports-1M[11\\Kinetics1'21, Moments in Time[13W<.从数据集的发展趋势来看,近几年数据集里包含越来越多的动作类别与样本数目,纷繁复杂的视频场景,使其越来越接近于不受控的自然状态下的情景。这种更接近实际情况的发展趋势使得视频行为识别更具实用价值,但同时对算法的稳健性也提出了更高的要求。目前行为识别领域针对UCF-101和HMDB51数据集的研究有很多并且相当深入,因此,本文主要是对基于这两个公开数据集的方法做了比较全面的阐述、对比和分析【"26]。
2.2传统行为识别技术概述
传统的视频分类方法主要是基于手工提取特征的识别方法,处理过程一般包括特征采样、选取描述符、特征预(后)处理、描述符聚类和向量编码等步骤【27]。它的处理流程如图1所示。在深度学习进入行为识别领域之前,由Wang等〔28-29]提出的改进的密集轨迹(improved dense trajectories,IDT)算法是效果较好、经典的传统算法之—o它将数据集UCF-50的准确率从84.5%提高到了91.2%,将HMDB51提高了0.6个百分点。
IDT算法是通过每一帧的光流信息得到视频中物体的运动轨迹,再沿着运动轨迹提取轨迹变化(trajectories)、方向梯度直方图(histogram of oriented gradient,HOG)、运动边界直方图(motion of boundary history,MBH)和光流梯度直方图(histogram of oriented optical flow,HOF)4种特征;然后对连续帧中的每一个像素点计算场景中所有物体的三维运动向量在所在平面上的二维投影的向量,它包含了物体运动的速度和方向;接着从初始帧开始,每隔一定数量的像素进行采样跟踪,由光流判断跟踪点在下一帧的位置;最后釆用费舍尔编码(fishervector,FV)对特征进行编码,再基于编码结果训练SVM分类器。
IDT算法实现简单、分类效果良好,稳定性强、可靠性高,缺点是其特征维度较高,对运算资源消耗过大。尽管该方法对行为的表示能力远不如深度网络,但是它沿着轨迹提取特征、通过估计相机运动来减弱其带来影响的思路至今仍非常值得借鉴。
2.3神经网络概述
2.3.1卷积神经网络概述
卷积神经网络(convolutional neural network, CNN)是带有卷积结构的深度神经网络,它由输入、卷积、激活函数、池化和全连接5个层组成。其中,输入层主要是对原图像进行白化、归一化、去均值等预处理操作;卷积运算层主要使用滤波器(卷积核)进行随机初始化,通过设定步长、深度等参数,对输入进行不同层次的局部特征提取;激活函数主要是把卷积层的输出做非线性映射。常见的激活函数有ReLU、Sigmoid、Tanh等;池化层主要用于特征降维,通过压缩数据与参数
图1传统行为识别流程
2019286-3综述•102•
数量来减小过拟合,提高模型的容错性。常见池化方式有平均池化(mean pooling)和最大值池化(max pooling);全连接层将每个结点与上层的所有结点相连,综合前面提取到的特征来解决非线性问题,实现分类。CNNs中的经典网络有LeNet-5[30\\AlexNet的、VGG-16[32\\ResNet[3叭GoogLeNet网等。
二维卷积神经网络(2D CNN)是将每帧图像通过CNN来识别,由于忽略了时间维度上的帧间运动信息而无法对时间信息和运动模式建模。然而,运动信息在视频行为识别中有着关键性的作用昭。为了有效地综合运动信息,Ji等血]提岀3D 卷积(3D Conv)方法来捕获视频中的时间特征信息。该结构卷积层中的每个特征图谱(feature map)都与上层中多个邻近的连续帧相连,通过增加时间维度赋予神经网络行为识别的功能。2D卷积与3D卷积的对比如图2所示。
2.3.2循环神经网络概述
视频处理中输入的训练样本一般是基于时间、长短不一的连续序列数据,直接的拆分成一个个的样本来通过CNN进行训练比较困难。与基础的只在层与层之间建立全连接的网络不同,循环神经网络(recurrent neural network, RNN)通过在层之间的神经元之间建立连接能够对未分割的序列定位行为动作的起止点和判定动作的类型。RNN的结构如图3所示,它是一个单元结构的复用,每个圆圈表示一个单元,每个单元的功能一致。其中一般将输入单元的输入集标记为{xo,x”・、,x,,x“i,T,将隐藏单元的输出标记为{%,S”…,s”s,+”•••},t时刻的记忆s,可根据当前输入层的输出与上一步隐藏层的状态进行计算如式(1):
s,=/((7x x(+PF x(1)
图3循环神经网络结构
输出单兀的输出标记为>r时刻的输出。'计算如下:
o,=Softmax(7s t)(2)其中,/一般是非线性的激活函数。U、“、V 是权重矩阵参数,每输入一步输入中各层都共享这些参数。一般s,只需包含前面若干步的隐藏层状态。
在RNN中,由Hochreiter®】提出的长短期记忆(long short-term memory,LSTM)模型是目前比较常用的,该模型能够对长短时依赖进行更好的表达,在视频识别中可以用来为每一帧添加标签和判断类别,解决了RNN中梯度消亡的问题。3基于深度学习的视频行为识别方法
3.1基本思想概述
近年来,深度学习方法在视频行为识别领域应用广泛,影响该方法性能的因素也有很多,其中输入端输入的内容、网络的结构是影响其性能的主导因素,基于深度学习方法的基本流程如图4所示。视频中一般都含有彩色(RGB)图像信息、运动光流(optical)信息以及声音信息(audio),不同的信息在不同的视频行为识别中所占的权重不同,本文把这些信息统称为输入内容。网络结
2019286-4•103-电信科学2049年第12期
构是基于输入内容构建的不同深度的神经网络以及网络中层与层之间不同的交互方式。深度学习发展的热潮催生了很多应用于不同任务的优秀网络结构,在视频行为分类领域,基于行为的时空属性产生了3D卷积网络(3D convolutional network,C3D)和双流卷积网络(two-stream convolutional network)两个主流的网络架构。下面将对基于不同输入、不同网络的行为识别方法进行阐述对比,尤其对主流网络及其延伸网络的各种视频行为识别方法进行分析。
图4基于深度学习的视频行为识别流程
3.2基于不同输入内容的行为识别方法
随着目标检测技术发展越来越成熟,可以从单帧或堆叠的多帧RGB图像中获得一部分视频集上的行为类别[珂。如参考文献[39]提出的在KTH数据集上自动学习特征的深度模型以及参考文献[40]提出的基于LSTM的递归神经网络模型,均是把彩色序列图像放入CNN网络中进行训练,最后经过Softmax层输出视频分类结果。但是,一方面由于同一个视频片段背景一般比较单一,相邻多帧的差异性很小,使得训练集数据的多样性差、冗余量大;另一方面仅仅输入RGB图像信息没有充分利用整个视频的上下文信息而存在很多的漏检目标。而光流信息能够将当前帧的检测结果向前向后传的特点,对视频行为分类来说是一个很好的特征。目前使用神经网络获取光流的方法很流行,比如Ilg等⑷]提出的光流神经网络FlowNet2.0o它是FlowNe严]的增强版,它整体上速度代价变小,性能得到了大幅度提升,追平了目前领先的传统方法。把RGB和运动光流图像信息放入CNN网络中,经过数据融合后输出结果,融合的点不同,融合的方式等存在不同。参考文献[37,43-44]等用不同的深度卷积神经网络、不同的网络融合方式分析了彩色图像序列和光流图像的融合。
音频信息作为视频的关键部分也对视频中的行为识别起着关键性的作用。处理音频特征一般采用基于卷积网络的音频分类系统:先把每个视频分成若干帧,再通过傅里叶变换、直方图积分和对数变换等提取其频域信息,最后将每个视频的语音信息以一定的形式输入分类网络,生成标签概率分布预测。由于语音信息难以增强,与训练集容易过度拟合,一般易采用复杂度较低的网络提取。近年来,通过对音频信息分析为其添加语义标签后加入深度网络自动学习音频特征的方式,能够在一定程度上提高识别的准确率。
基于RGB图像信息和运动光流信息以及音频信息的识别方式叫做多模态识别,基于多模态识别网络探索方式也有很多,其中网络结构不同,全连接层融合后的输出不同。参考文献[45-47]等均在双流网络的基础上加入声音信息,对这三流信息分别建模探索了新的融合网络架构并取得了不错的成绩。在CVPR2018视频行为识别挑战赛上海康威视[绚、旷视科技[旳以及七牛云团队均运用多模态识别方式分别斩获前三名,尤其是海康威视提出的建立在空间网络和3D卷积神经网络基础上的DEEP-HR网络,输入端使用多模态输入方式获得了比赛的第一名。
3.3基于不同网络的行为识别方法
3.3.1双流网络及其衍生方法
CNNs在视频处理领域上有很强的学习和表现视频特征的能力,但是随着网络规模的扩大、参数的增加、大量标签数据的产生,使得CNN在大规模视频分类上的性能受到挑战。针对视频行为难分类的问题,Simonyan等削提出了基于时间
2019286-5
匕综述
• 104 •
和空间维度的双流CNN 。双流CNN 对视频信息的 理解是通过效仿人体视觉过程进行的,它以单个包
含人物与环境的视频图像帧作为表述空间信息的载 体组成空间信息网络,提取形状等特征信息;光流 信息作为时序信息的载体输入到另外一个CNN 中, 称为时间信息网络,用来处理连续多帧密集光流,
提取动作信息。后续采用多任务训练的方法处理两 个流,经过Softmax 后做分类得分融合。
对于双流网络的改进,Ng 等【"I 提出采用 LSTM 来聚合时间轴上帧的CNN 最后一层的激 活,如图5所示。该方法通过LSTM 引入的记 忆单元能够更有效地表达帧的前后顺序。大多 数研究选择在CNN 全连接层的前一层进行特征 融合,因为如果取其后的高层特征进行池化, 空间特征在时间轴上的信息会丢失。相对参考文 献[48],它加长了 CNN 特征融合的时间,能对 更长时长的视频进行表达。Feichtenhofer 等⑷] 提出将时空网络融合在一起,如图6所示,将 双流通过一个过滤器结合在一起,该过滤器能
够从时间流中学习高度抽象的空间流外观特征 和短期运动特征之间的对应关系,然后多个长
期输入块在最后一个卷积层融合。在最后一个
卷积层,通过3D 卷积融合(3D conv fusion)和 3D 池化(3D pooling)将其转换为时空流,同 时不截断时间流,在时间网络中执行3D pool ing- 最后所得到的时空特征在时空中被三维汇
聚再传递给全连接层分别计算分类损失。RGB 帧
图像
图5结合LSTM 的双流改进网络以上基于双流网络的架构都需要密集釆样视
频帧,庞大的计算量一直是难以逾越的鸿沟。对 此,Wang 等㈤]利用稀疏时间釆样,提出了时间段
网络(temporal segment networks, TSN)O 该网络 时空损失
时空损失y
SDp^ing
conv fimction —3。创呼图6双流融合网络结构
2019286-6
•105•电信科学2019年第12期
继承了双流网络的结构,通过使用多个双流网络,分别捕捉不同时序位置的短时段信息来处理长时段信息表达的问题。TSN网络结构如图7所示,它在输入端不考虑视频的时长,直接将视频切割为K个段,随机地在每个段中找出一个小的时间片;然后用CNN这些时间片分别提取时空特征;而后在时间和空间上分别进行段共识的特征级融合,最后再进行Softmax分类。TSN计算原理如下:
TSN(Jf…%2>-,%J=(3) sw{x x-w),f(x2-,w),-,f(x k-w^
其中,旅代表第K个段,炉为参数,R是特征融合函数,函数F指经过CNN提取的特征,S表示分类层Softmax o
时间卷积
空间卷积
K:
个:
段;
鋤■空间卷乔p i、&J能
--------------------------段共识”
时间卷积
时间卷积
图7TSN结构
TSN网络大大降低了双流网络计算的复杂度,研究者们对其进行了进一步的研究探索。Lan 等⑸】是对TSN的融合部分做了改进,提出由深度网络自学习决定的加权融合方法,该方法认为片段不同所占的权重不同,且权重的大小由网络学习获得。而Zhou等〔"I则关注时序关系的推理,提出通过视频帧之间的时序推理可以识别仅靠关键帧无法辨别的动作。Diba等少]结合前面两者的改进措施,增加三层全连接层学习不同视频片段的权重,在输入的特征图上做时序推理,并提出一种时序线性编码层(temporal linear encoding, TLE)来对视频分段提取后的特征图进行融合编码,对所有的帧进行综合编码获得视频表达,捕捉到长时间动态过程。3.3.2C3D卷积网络及其衍生方法
对于时空特征的学习,Tran等网在大规模、有监督数据集上提出了一种简单有效的方法—C3Do它将时间看成是第三维信息来融合单帧的RGB图像和帧与帧之间的变化信息。它的网络结构非常简单,含卷积层8个、池化层(max pooling)5个、全连接层2个。尽管3D卷积神经网络通过简单的线性分类器就能达到不错的性能,但较大的内存消耗和较高的计算成本导致其难以构建更深层的3D CNN。
针对3D网络的局限性,许多研究学者对其进行了探索。最早由Sun等从卷积网络的卷积层入手,将3D空间时间学习分解为2D空间和1D 时间学习,提出了一种时空分解卷积网络(factorized spatio-temporal convolutional network, F st CN)«该网络级联地组合视频中的时空信息。在网络的底层,使用2D空间卷积核学习视频帧的空间表象特征。在网络的顶层,使用1D时间卷积核学习视频的时间运动特征。这种网络结构与3D 卷积网络相比大大减少了参数量,所以对训练数据量要求比较低。从卷积核结构角度出发,Qiu 等[旳对ResNet网络内部连接的卷积形式做了改进,构建了P3D(pseudo-3D)模型,经济有效地表达了视频特征;Diba等〔"I则引入一种新的时域层(temporal transition layer,TTL)给可变时域卷积核深度建模,提出T3D(temporal3D)模型,用不同尺度的卷积来捕捉信息并采用迁移学习节省训练时间。Carreira等测提出了一种基于GoogLeNet的Inception-Vl网络的13D(two-stream inflated3D convNets)模型,在UCF-101和HMDB51数据集上分别获得了98%和80.9%的识别率。Tran等〔冈沿用参考文献[54-55]的想法将时空卷积分开,分别得到时间层和空间层,提出了新的时空卷积块R(2+l)Do不同的是它在网络所有层中使用的都是统一类型的时空残差块,该模型在识别精度上略差于I3Do匚》综述•106•3.3.3其他优秀网络
针对目前对光流特征依懒性强且对于时空数
据的表征学习相对困难的问题,Fan等冋]创造性
地提出了一种从数据中学习类光流特征、基于端
到端训练的神经网络TVNet»该网络性能高效,
不但能自然地连接嫁接到一些特定任务网络,而
且无需预计算和预存储。目前,研究者们对视频
行为识别中存在的多速率问题也做了很多研究,
尤其是Zhu等2】提出了时间金字塔池深度网络
(deep networks with temporal pyramid pooling, DTPP),一种端到端的视频级表示学习方法。它的网络结构如图8所示,其中TPP层是把视频的帧级特征整合到固定大小的视频级表示中,以多尺度的方式获取视频的时间结构。该模型的视频级表示紧凑,具有多个时间尺度,可全局感知。目前,DTPP在UCF-101和HMDB51数据集上,无论是通过ImageNet还是Kinetics预训练,都取得了很好的效果。尽管DTPP取得了最优的性能。但以它为代表的部分深度网络都是学习一整段的动作视频,由于一些帧与动作的关系并不大,大量不相关内容累积的计算量严重影响了训练的速度。对此,Zhu等回"习提出了关键卷(key volume)特征的自动识别。它通过在关键帧上建立CNN模型,增强了动作分类的效果。而Kar等妙旳则以在视频中除去一些冗余帧,提高视频行为的判断能力为原则,提出了一种关键视频帧汇聚方法。近年来,这种基于注意力机制提取视频关键特征方法引起了广泛的关注。
4识别方法分析评价
本文主要在UCF101和HMDB51数据集上来评价视频行为识别方法的性能,根据第3.3节中的网络分类方法,对双流及其衍生网络行为识别方法、C3D卷积网络及其衍生行为识别方法以及其他优秀网络行为识别方法在UCF-101和HMDB51数据集上的性能进行了比较和汇总,见表2、表3
图8DTPP网络结构
和表4。由汇总结果可见,尽管早些年基于深度学习的视频行为识别方法在识别准确率上不如传统方法,但是近些年来有了突破性进展:UCF101数据集上的准确率达到了98%,比传统最好的方法高出12.1个百分点;在HMDB51数据集上达到80.9%,超过IDT算法23.7%。另外,由表2、表3和表4可见,深度网络与IDT算法相结合能够提升网络的性能,使用的预训练数据集的不同也会影响网络的识别准确率。
5结束语
本文基于深度学习的视频行为识别方法从不同的输入内容和不同的深度网络两个方面岀发,通过对目前的主流网络以及它们的延伸网络进行了对比分析,发现影响检测性能的因素有很多—输入网络的信息、输入信息的融合方式、不同网络之间的相互融合、不同网络层次之间的交互以及基于不同数据集的预训练都会影响识别的准确率。值得注意的是,输入端在考虑图像信息、运动光流信息以及音频信息的多模式融合的同时应该注意到不同的信息在不同视频行为识别中所占的权重不同。另外,光流信息的替代问题也值得进一步地探究。
目前基于深度学习的视频行为识别方法已经取得了一定的研究成果,已经有很多的优秀网络架构被研究公开,但是仍然面临一些挑战。随着
・107・电信科学2019年第12期表2双流网络及其衍生行为识别方法在UCF-101和HMDB51数据集上的性能比较参考文献方法预训练数据集UCF-101HMDB51
[48]Two-Stream(V G G-M)ImageNet8&059.4
[37]Two-Stream+LSTM ImageNet8&6—
Very deep Two-Stream(GoogLeNet).3—「1
Very deep Two-Stream(VGG-16)91.45&5
Two-Stream fusion(VGG-16)92.565.4
[49]ImageNet
Two-Stream fusion(VGG-16)+IDT93.569.2
ST-ResNet*93.466.4
[65]ImageNet
ST-ResNet*+IDT94.670.3
ST-Pyramid Network(VGG-16)93.266.1
[66]ST-Pyramid N e twork(R esN e t-50)ImageNet93.866.5
ST-Pyramid Network(BN-Inception)94.66&9
ST-Multiplier94.26&9
[67]ImageNet
ST-Multiplier+IDT94.972.2
TLE:FC-Pooling92.26&8
[53]TLE:Bilinear+TS ImageNet95.170.6
TLE:Bilinear95.671.1
TSN94.269.4
[50]ImageNet
TSN(Inception v3)96.275.3
Hidden Two-Stream(TSN)93.266.8
[68]Kinetics
Hidden Two-Stream(I3D)97.17&7表3C3D卷积网络及其衍生行为识别方法在UCF-101和HMDB51数据集上的性能比较参考文献方法预训练数据集UCF-101HMDB51
[55]Fs.CN ImageNet8&159.1
[54]C3D one network Sports-IM82.3—
C3D ensemble85.2—
C3D ensemble+IDT90.1—
[35]C3D+LSTM—92.970.1
[57]T3D ImageNet90.359.2
T3D-Transfer91.761.1
T3D+TSN93.263.5
[38]STRN ImageNet93.2.9
[56]P3D ResNet ImageNet+Sports-1M8&6
P3D ResNet+IDT93.7
[68]Multi-task C3D+LSTM Sports-IM93.46&9
[59]R(2+1)D-RGB Sports-1M93.666.6
R(2+1)D-Flow93.370.1
R(2+1)D-Two-Stream95.072.7
R(2+1)D-RGB Kinetics96.874.5
R(2+1)D-Flow95.576.4
R(2+1)D-Two-Stream97.37&7
[58]RGB-I3D ImageNet+Kinetics95.674.8
Flow-I3D96.777.1
Two-Stream I3D9&080.7
RGB-I3D Kinetics95.174.3
Flow-I3D96.577.3
Two-Stream I3D97.880.9表4其他优秀网络行为识别方法在UCF-101和HMDB51数据集上的性能比较
参考文献方法预训练数据集UCF-101HMDB51
[69]TDD ImageNet90.363.2
TDD+IDT91.565.9
[70]LTC Sports-1M91.7.8
LTC+IDT92.767.2
[61]Key・volume mining deep framework ImageNet93.163.3
[62]AdaScan ImageNet.454.9
AdaScan+iDT91.361.0
AdaScan+iDT+C3D93.266.9【71]RNN-FV(C3D+VGG-CCA)—54.338&01 RNN-FV(C3D+VGG-CCA)+IDT—94.0867.71
[51]DOVF ImageNet94.971.7
DOVF+MIFS95.375.0
[60]TVNet—94.3571.0
TVNet+IDT95.472.6
[72]Four-Stream ImageNet95.572.5
Four-Stream+IDT96.074.9
[19]DTPP ImageNet95.874.8
DTPP+MIFS96.176.3
DTPP+IDT96.275.3
DTPP Kinetics9&082.1
数据集的不断扩充,对于硬件系统的性能也提出了更高的要求,应考虑如何在小样本数据中就能获得较好的识别准确度以及在大样本集中如何进一步提高速度等;对于一些实际应用,比如对于异常行为的识别、细微动作识别等这些更加贴近实际的应用还存在很大的困难,而实际场景中得到应用必须考虑算法高效性,如何建立更简单的网络模型,训练优化更少的参数提升算法收敛的速度以及如何在视频中提取出描述视频判断的强有力的特征等都是下一步的重点研究方向。
参考文献:
[1]SCHULDT C,LAPTEV I,CAPUTO B.Recognizing human
actions:a local SVM approach[C]//17th International Confer
ence on Pattern Recognition(ICPR),Aug23-26,2004,Cambridge,UK.Piscataway:IEEE Press,2004:32-36.
[2]BLANK M,GORELICK L,SHECHTMAN E,et al.Actions as
space-time shapes[C]//10th IEEE International Conference on Computer Vision(ICCV),Oct17-21,2005,Beijing,China.Piscataway:IEEE Press,2005:1395-1402.
[3]GORELICK L,BLANK M,SHECHTMAN E,et al.Actions as
space-time shapes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(12):2247-2253.
[4]MARSZALEK M,LAPTEV I,SCHMID C.Actions in con-
text[C]//22nd IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun20-25,2009,Florida,USA.Piscataway:IEEE Press,2009:2929-2936.
[5]NIEBLES J C,CHEN C W,LI F F.Modeling temporal structure
of decomposable motion segments for activity classification[C]// 11th European Conference on Computer Vision(ECCV),Sep 5-11,2010,Heraklion,Crete,Greece.Berlin:Springer Verlag, 2010:392-405.
-109・电信科学2019年第12期
[6]KUEHNE H,JHUANG H,GARROTE E,et al.HMDB:a large
video database for human motion recognition[C]//16th IEEE International Conference on Computer Vision(ICCV),Nov6-13, 2011,Barcelona,Spain.Piscataway:IEEE Press,2011: 2556-2563.
[7]LIU J G,LUO J B,SHAH M.Recognizing realistic actions
from videos[C]//22nd IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun20-25,2009,Florida,USA.
Piscataway:IEEE Press,2009:1996-2003.
[8]REDDY K K,SHAH M.Recognizing50human action catego
ries of Web videos[J].Machine Vision and Applications,2013, 24(5):971-981.
[9]SOOMRO K,ZAMIR A R,SHAH M.UCF101:a dataset of
101human actions classes from videos in the wild[J].Computer Science,2012:1-7.
[10]RODRIGUEZ M D,AHMED J,SHAH M.Action match a
spatio-temporal maximum average correlation height filter for action recognition[C]//21st IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun24-26,200&Anchorage,Alaska,USA.Piscataway:IEEE Press,200&1-& [11]KARPATHY A,TODERICI G,SHETTY S,et al.Large-scale
video classification with convolutional neural nctworks[C]//27th IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR),Jun23-28,2014,Columbus,USA.Piscataway: IEEE Press,2014:1725-1732.
[12]KAY W,CARREIRA J,SIMONYAN K,et al.The kinetics
human action video dataset[J].2017.arXiv:1705.06950.
[13]MONFORT M,ANDONIAN A,ZHOU B,et al.Moments in
time dataset:one million videos for event understanding[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence,2019(3):1-9.
[14]XU W R,MIAO Z J,TIAN Y.A novel mid-level distinctive
feature learning for action recognition via diffusion map[J].
Neurocomputing,2016(218):185-196.
[15]TONG M,WANG H Y,TIAN W J,et al.Action recognition
new framework with robust3D-TCCHOGAC and 3D-HOOF G A C[J].Multimedia Tools and Applications,2017, 76(2):3011-3030.
[16]VISHWAKARMA D K,KAPOOR R,DHIMAN A.Unified
framework for human activity recognition:an approach using spatial edge distribution and transform[J].AEU-Intemational Journal of Electronics and Communications,2016,70(3): 341-353.
[17]WANG Y,TRAN V,HOAI M.Evolution-preserving dense
trajectory descriptors[J].arXiv:1702.04037,2017.
[18]LI Y W,LI W X,MAHADEVAN V,et al.VLAD3:encoding
dynamics of deep features for action recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR),Jun27-30,2016,Las Vegas,USA.Piscataway:
IEEE Press,2016:1951-1960.
[19]ZHU J,ZOU W,ZHU乙End-to-end video-level representation
learning for action recognition[C]//24th International Conference on Pattern Recognition(ICPR),Aug20-24,201&Beijing, China.Piscataway:IEEE Press,201&5-650.
[20]SUN Q,LIU H,MA L,et al.A novel hierarchical bag-o住words
model for compact action representation[J].Neurocomputing, 2016(174):722-732.
[21]IJJINA E P,MOHAN C K.Human action recognition using
genetic algorithms and convolutional neural networks[J].Pattern Recognition,2016(59):199-212.
[22]MAHASSENI B,TODOROVIC S.Regularizing long short
term memory with3D human-skeleton sequences for action recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun27-30,2016,Las Vegas,USA.
Piscataway:IEEE Press,2016:3054-3062.
[23]ALHARBI N,GOTOH Y.A unified spatio-temporal human
body region tracking approach to action recognition[J].
Neurocomputing,2015(161):56-.
[24]MAHASSENI B,TODOROVIC S.Regularizing long short
term memory with3D human-skeleton sequences for action recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun27-30,2016,Las Vegas,USA.
Piscataway:IEEE Press,2016:3054-3062.
[25]ZHANG X,BAO Y,ZHANG F,et al.Qiniu submission to Ac
tivity Net challenge2018[J].2018Computer Vision and Pattern Recognition Challenge,arXiv:1806.04391,2018.
[26]LI Y,XU Z,WU Q,et al.Submission to moments in time chal
lenge2018[J].2018Computer Vision and Pattern Recognition Challenge,a rXiv:1808.03766,2018.
[27]罗会兰,王婵娟,卢飞.视频行为识别综述[J].通信学报,
2018,39(6):169-180.
LUO H L,WANG C J,LU F.Survey of video behavior recogni-tion[J].Journal on Communications,201&39(6):169-180. [28]WANG H,KLASER A,SCHMID C,et al.Dense trajectories
and motion boundary descriptors for action recognition[JJ.International Journal of Computer Vision,2013,103(1):60-79. [29]WANG H,SCHMID C.Action recognition with improved
trajectories[C]//l8th IEEE International Conference on Computer Vision(ICCV),Dec1-8,2013,Sydeny,Australia.Piscataway:IEEE Press,2013:3551-355&
[30]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based
learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[31]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet
classification with deep convolutional neural networks[CJ//25th Annual Conference on Neural Information Processing Systems, Dec3-6,2012,Lake Tahoe,USA.Massachusetts:MIT Press, 2012:1106-1114.氏」综述-110・
[32]SIMONYAN K,ZISSERMAN A.Very deep convolutional
networks for large-scale image recognition[C]//3rd International Conference on Learning Representations(ICLR),May7-9,2015, San Diego,USA.New York:AMC Press,2015:1-14.
[33]HE K,ZHANG X,REN S,et al.Deep residual learning for
image recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun26-Jul1,2016,Las Vegas,USA.Piscataway:IEEE Press,2016:770-77&
[34]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolu-
tions[C]//28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun7-12,2015,Boston,USA.Piscataway:IEEE Press,2015:7-12.
[35]ARIF S,WANG J,HASSAN U T,et al.3D-CNN-based fused
feature maps with LSTM applied to action recognition[J].Future Internet,2019,11(2):42.
[36]JI S,XU W,YANG M,et al.3D convolutional neural networks
for human action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231. [37]NG Y H,HAUSKNECHT M,VIJAYANARASIMHAN S,et al.
Beyond short snippets:deep networks for video classifica-tion[C]//28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun7-12,2015,Boston,USA.Piscataway: IEEE Press,2015:4694-4702.
[38]LIU Z,HU H F.Spatiotemporal relation networks for video
action recognition[J].IEEE Access,2019(7):14969-14976. [39]BACCOUCHE M,MAMALET F,WOLF C,et al.Sequential
deep learning for human action recognition[C]//2nd International Conference on Human Behavior Unterstanding(HBU), Nov16-16,2011,Amsterdam,Netherlands.Berlin:Springer Verlag,2011:29-39.
[40]DONAHUE J,HENDRICKS L A,ROHRBACH M,et al.
Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,39(4):677-691.
[41]ILG E,MAYER N,SAIKIA T,et al.FlowNet2.0:evolution of
optical flow estimation with deep networks[C]//30th IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR),Jul21-26,2017,Honolulu,USA.Piscataway: IEEE Press,2017:1467-1655.
[42]FISCHER P,DOSOVITSKIY A,ILG E,et al.FlowNet:learn
ing optical flow with convolutional networks[C]//20th IEEE International Conference on Computer Vision(ICCV),Dec11-1& 2015,Santiago,Chile.Piscataway:IEEE Press,2015: 2758-2766.
[43]YE H,WU Z,ZHAO R W,et al.Evaluating Two-Stream CNN
for Video Classification[C]//5th ACM on International Conference on Multimedia Retrieval(ICMR),Jun23-26,2015,Shanghai,China.New York:ACM,2015:435-442.
[44]WU Z,WANG X,JIANG Y G,et al.Modeling spatial-temporal
clues in a hybrid deep learning framework for video classifica-tion[C]//23rd ACM Multimedia Conference,Oct26-30,2015, Brisbane,Australia.New York:ACM Press,2015:461-470. [45]WU乙JIANG Y G,WANG X,et al.Multi-stream muiti-class
fusion of deep networks for video classification[C]//24th ACM Multimedia Conference,Oct15-19,2016,Amsterdam,UK.
New York:ACM Press,2016:791-800.
[46]LONG X,GAN C,MELO G D,et al.Attention clusters:Purely
attention based local feature integration for video classifica-tion[C]//31st IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun18-22,2018,Salt Lake,USA.Piscataway:IEEE Press,201&7834-7843.
[47]JIANG Y GWU Z,TANG J,et al.Modeling multimodal clues
in a hybrid deep learning framework for video classification]J].
IEEE Transactions on Multimedia,201&20(11):3137-3147. [48]SIMONYAN K,ZISSERMAN A.Two-stream convolutional
networks for action recognition in videos[C]//28th Annual Conference on Neural Information Processing Systems(NIPS),Dec 8-13,2014,Montreal,Canda.Massachusetts:MIT Press,2014: 568-576.
[49]FEICHTENHOFER,PINZ A,ZISSERMAN A.Convolutional
two-stream network fusion for video action recognition[C]// 29th IEEE Conference on Computer Vision and Pattern Recog-nition(CVPR),Jun27-30,2016,Las Vegas,USA.Piscataway: IEEE Press,2016:1933-1941.
[50]WANG L,XIONG Y,WANG Z,et al.Temporal segment net
works:towards good practices for deep action recogni-tion[C]//14th European Conference on Computer Vi-sion(ECCV),Oct8-16,2016,Amsterdam,Netherlands.Berlin: Springer Verlag,2016:20-36.
[51]LAN Z,ZHU Y,HAUPTMANN A G.Deep local video feature
for action recognition[C]//30th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jul21-26,2017,Honolulu,USA.Piscataway:IEEE Press,2017:1219-1225.
[52]ZHOU B,ANDONIAN A,TORRALBA A.Temporal relational
reasoning in videos[C]//15th European Conference on Computer Vision(ECCV),Sep8-14,201&Munich,Germany.Berlin: Springer Verlag,201&831-846.
[53]DIBA A,SHARMA V,VAN GOOL L.Deep temporal linear
encoding networks[C]//30th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),July21-26,2017,Honolulu,USA.Piscataway:IEEE Press,2017:1541-1550.
[54]TRAN D,BOURDEV L,FERGUS R,et al.Learning spatio
temporal features with3D convolutional networks[C]//20th IEEE International Conference on Computer Vision(ICCV), Dec11-1&2015,Santiago,Chile.Piscataway:IEEE Press, 2015:44-4497.
[55]SUN L,JIA K,YEUNG D Y,et al.Human action recognition
using factorized spatio-temporal convolutional networks[C]//
•馅1・电信科学2019年第12期
20th IEEE International Conference on Computer Vision(ICCV), Dec11・1&2015,Santiago,Chile.Piscataway:IEEE Press, 2015:4597-4605.
[56]QIU Z,YAO T,MEI T.Learning Spatio-temporal representation
with pseudo-3D residual networks[C]//22nd IEEE International Conference on Computer Vision(ICCV),Oct22-29,2017,Venice,Italy.Piscataway:IEEE Press,2017:5534-5542.
[57]DIBA A,FAYYAZ M,SHARMA V,et al.Temporal3D
ConvNets:new architecture and transfer learning for video classification]!].arXiv:1711.08200,2017.
[58]CARREIRA J,ZISSERMAN A.Quo Vadis,action recognition?
A new model and the kinetics dataset[C]//30th IEEE Confer
ence on Computer Vision and Pattern Recognition(CVPR),Jul 21-26,2017,Honolulu,USA.Piscataway:IEEE Press,2017: 6299-6308.
[59]TRAN D,WANG H,TORRESANI L,et al.A closer look at
spatiotemporal convolutions for action recognition[C]//31st IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR),Jun18-22,2018,Salt Lake,USA.Piscataway: IEEE Press,2018:50-59.
[60]FAN L,HUANG W,GAN C,et al.End-to-end learning of
motion representation for video understanding[C]//31st IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Jun18-22,201&Salt Lake,USA.Piscataway:IEEE Press,2018:6016-6025.
[61]ZHU W,HU J,SUN G,et al.A key volume mining deep
framework for action recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jun27-30, 2016,Las Vegas,USA.Piscataway:IEEE Press,2016: 1991-1999.
[62]KAR A,RAI N,SIKKA K,et al.AdaScan:adaptive scan pool
ing in deep convolutional neural networks for human action recognition in Videos[C]//30th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jul21-26,2017,Honolulu,USA.Piscataway:IEEE Press,2017:5699-5708.
[63]ZHU Y,LAN乙NEWS A M S,et al.Hidden two-stream convo
lutional networks for action recognition[C]//14th Asian Conference on Computer Vision(ACCV),Dec2-6,201&Perth, Australia.Berlin:Springer Verlag,2018:363-378.
[]WANG L,XIONG Y,WANG Z,et al.Towards good practices
for very deep two-stream ConvNets[J].Computer Science, arXiv:1507.02159,2015.
[65]FEICHTENHOFER C,PINZ A,WILDES R P.Spatiotemporal
residual networks for video action recognition[C]//30th Conference and Workshop on Neural Information Processing Systems(NIPS),Dec5-10,2016,Barcelona,Spain.[S.l.:s.n.],2016: 3476-3484.
[66]WANG Y,LONG M,WANG J,et al.Spatiotemporal pyramid
network for video action recognition[C]//30th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Jul21-26, 2017,Honolulu,USA.Piscataway:IEEE Press,2017:2097-2106.
[67]FEICHTENHOFER C,PINZ A,WILDES R P.Spatiotemporal
multiplier networks for video action recognition[C]//30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Jul21-26,2017,Honolulu,USA.Piscataway:IEEE Press,2017:7445-7454.
[68]OUYANG X,XU S J,ZHANG C Y,et al.A3D-CNN and
LSTM based multi-task learning architecture for action recogni-tion[J].IEEE Access,2019(7):40757-40770.
[69]WANG L,QIAO Y,TANG X.Action recognition with trajecto
ry-pooled deep-convolutional descriptors[C]//28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Jun7-12,2015,Boston,USA.Piscataway:IEEE Press,2015: 4305-4314.
[70]VAROL G,LAPTEV I,SCHMID C.Long-term temporal con
volutions for action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018:1510-1517. [71]LEV G,SADEH G,KLEIN B,et al.RNN fisher vectors for
action recognition and image annotation[C]//14th European Conference on Computer Vision(ECCV),Oct8-16,2016,Amsterdam,Netherlands.Berlin:Springer Verlag,2016:833-850. [72]BILEN H,FERNANDO B,GAVVES E,et al.Action recogni
tion with dynamic image networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,201&40(12): 2799-2813.
[作者简介]
F k1赵朵朵(1995-),女,杭州电子科技大学
■通信工程学院硕士生,主要研究方向为图像
J[处理与人工智能等。
章坚武(1961-),男,博士,杭州电子科技大学通信工程学院教授、博士生导师,中国电子学会、中国通信学会高级会员,浙江省通信学会常务理事,主要研究方向为移动通信、多媒体信号处理与人工智能、通信网络与信息安全。
郭春生(1971-),男,博士,杭州电子科技大学通信工程学院副教授、硕士生导师,主要研究方向为视频分析与模式识别。
周迪(1975-),男,浙江宇视科技有限公司高级工程师、宇视研究院院长,主要研究方向为视频安全、人工智能等。
穆罕默德・阿卜杜・沙拉夫・哈基米(1991-),男,杭州电子科技大学博士生,主要研究方向为图像处理与人工智能。
2019286-13
