Home>Schools

  • Complex
  • Title
  • Author
  • Keyword
  • Abstract
  • Scholars
Search

[学位]

基于深度学习的视频人体行为识别研究

Share
Edit Delete Claim

Author:

吴彝丹 (吴彝丹.)

Indexed by:

学位论文库

Abstract:

视频人体行为识别是智能监控、人机交互、视频检索等诸多应用的一项基础技术。在光照条件变化、视角变化、复杂背景、类内变化等诸多因素的影响下,行为识别成为一项具有挑战性的任务。而随着近年来视频逐渐成为信息的主要载体之一,以及计算机视觉技术和人工智能的发展,研究如何高效地对视频内容进行分析和理解、对视频中人的行为进行识别,越来越受到学术界和工业界的重视。深度学习方法具备强大的学习建模能力,能从大量数据中提取有效的信息,因而受到了学者的广泛关注。深度学习代表算法卷积神经网络具有局部连接和权值共享的特点,能有效地对数据进行高层抽象表示,而利用递归神经网络我们可以对时间序列进行建模。另外,视频可以看做由多帧图像组成的时间序列,且具有可利用的上下文信息。
首先,本文设计实现了基于三维卷积神经网络的摔倒检测。由于能够作为训练数据的摔倒视频非常有限,难以直接用于训练深度模型。此外,二维卷积神经网络只能编码空域信息,无法表示运动特征,用于基于视频时间序列的摔倒检测中并不合适,而三维卷积神经网络能有效地对视频中的时空信息进行编码。因此,本文将三维卷积神经网络引入到摔倒检测任务中,并将网络在大型运动分类数据集Sports-1M上进行训练。训练好的网络能够提取视频中有效的运动表示特征,可以直接作为特征提取器使用,用以得到短时序列的有效特征表示。得到特征表示后,可以结合线性SVM分类器进行摔倒检测。
其次,本文将三维卷积神经网络与基于LSTM的视觉注意力模型相结合,提出了一种注意力引导的三维卷积网络用于视觉行为识别。每帧图像中,通常只有小部分区域提供了行为相关的信息,其余部分则是与行为识别无关或者相关性很小的冗余区域。基于LSTM的视觉注意力模型可以在短时局部动态特征的基础上自动学习在空间上应该关注的区域和整个长序列包含的信息。本文将注意力引导的三维卷积神经网络在UCF-11、HMDB-51和Multiple cameras fall dataset三个数据集上进行了训练,并实现了视频行为分类识别。
在摔倒检测数据集Multiple cameras fall dataset上,我们利用三维卷积提取特征,利用线性SVM分类器分类,得到了很高的准确率。在行为识别数据集UCF-11数据集和HMDB-51数据集上利用注意力引导的三维卷积神经网络进行了多次实验,均取得了很好的效果。另外,我们通过实验对比了不同的特征提取方式、不同的特征采样方法对算法性能的影响,充分说明了注意力引导的三维卷积神经网络的有效性。通过分析视觉注意力集中的位置发现,视频帧中能表征运动类别的最有信息量的关键区域可以被注意力权重正确地发现。

Keyword:

行为识别 卷积神经网络 深度学习 视觉注意力 摔倒检测

Author Community:

  • [ 1 ] 西安交通大学电子与信息工程学院

Reprint Author's Address:

Show more details

Basic Info :

Degree: 工学硕士

Mentor: 吕娜

Year: 2017

Language: Chinese

Cited Count:

WoS CC Cited Count: 0

30 Days PV: 33

FAQ| About| Online/Total:2038/219617018
Address:XI'AN JIAOTONG UNIVERSITY LIBRARY(No.28, Xianning West Road, Xi'an, Shaanxi Post Code:710049) Contact Us:029-82667865
Copyright:XI'AN JIAOTONG UNIVERSITY LIBRARY Technical Support:Beijing Aegean Software Co., Ltd.