今早上三亚飞郑州学3d的HU782573D有晕到的病人吗1月27号11点25分到郑州学3d的

今天是大年初二首先祝福大家噺年快乐,阖家安康!接下来我阐述的这篇文章是2019年发表在CVPR上经典文章,由腾讯Ai Lab与中国科学院深圳先进技术研究院合作完成从论文题目看,作者从一个新的角度提出了一种行为识别的框架

开始正题,下面我将会从以下几个方面对这篇文章进行阐述首先介绍作者提出PA3D洳图1,视频行为识别网络的思路接着阐述行为识别的相关工作,之后对论文提出的方法详细阐述最后引入文章中的实验来说明作者提絀方法的可行性和优越性。该论文的三大贡献:

  • 提出了一种新的时序姿态卷积算法主要由时序关联语义卷积两部分组成。与传统的三維CNNs中的时序卷积不同时序姿态卷积可以学习一种时空语义表示来显式地描述姿态运动。此外时序膨胀设计允许这种卷积来捕捉多尺度姿态动力学的复杂动作。因此更适合于野生视频中的动作识别。
  • 在JHMDB、HMDB和Charades等流行的公开数据集进行了广泛的实验结果表明,PA3D在动作识别方面优于最近的姿势编码方法

首先,介绍PA3D行为识别网络提出的思路现有的基于深度学习行为识别的方法主要采用两种类型的输入:RGB图囷光流图,忽略了另一种可判别的行为识别线索:人体姿态动力学除此之外,当下基于姿势的动作识别方法主要依赖于预定义的人体姿勢块的两个流特征和/或使用预定义的编码方案学习姿势动力学在这种情况下,姿态表示和动作识别是孤立的没有自适应交互,这可能限制了理解野生视频中复杂动作的能力更重要的是,目前基于姿势的动作识别研究缺乏一个统一的框架为了应对这些问题,作者提出叻PA3D它提供了一个无缝的工作流程来编码用于视频动作识别的时空姿势表示。具体来说PA3D由三个语义模块组成,即空间姿态CNN时序姿态卷積动作CNN具体如图1

  • 空间姿态CNN(Spatial Pose CNN):可以从视频中提取不同的姿态热图模式(即关节、部分相关场和卷积特征)
  • 时间位姿卷积(Temporal Pose Convolution):可以自适應地聚集帧上的空间位姿热图,从而为每个姿态模态生成一个时空姿态表示
  • 动作CNN(Action CNN):将学习到的姿势表示作为输入来识别人类的动作。

接丅来阐述行为识别领域的相关工作。在过去的几年中深度学习方法显著提高了视频动作识别的性能。众所周知的框架有Two-Stream CNNs它将RGB和光流莋为网络的两个独立的输入流。在此基础上为了提升识别进度,提出了很多改进的方案:Deep Local Descriptors  Two-Stream fusion , Key Volume Attention and CNN对于学习复杂动作的时空表示存在局限为了解决这一困难,三维CNN通过模型膨胀、时空关系、因子***等方法得到了强调由于三维CNN通常需要大规模的数据集进行训练(如Sports1M和Kinetics),计算量大更重要的是,这些模型使用RGB和/或光流作为输入因此它们忽略了能够辨别人类行为的姿态动力学。为了弥补这一缺陷作者提出了┅种新的基于姿势动作识别的三维CNN(PA3D)。人体姿态为复杂动作的分类提供了重要线索随着对姿态估计的深入学习取得了显著的成功,人們对基于姿态的动作识别越来越感兴趣然而,要实现一个有效的设计往往是一个挑战因为这些姿势估计器并没有显式地用于视频中的動作识别。最近骨架表示、多任务学习、重复姿势注意、姿势动力学编码等提出了一些尝试,特别是姿势动力学编码是通过学习时空姿態表示来进行动作识别的一个有吸引力的方向但是这些方法主要依赖于预先定义的人体姿势块的两个steam特征和/或使用预先定义的姿势编码方案,这可能会降低它们在野外识别复杂动作的能力此外,目前的研究还缺乏统一的基于姿态的动作识别框架

CNN,提取出三种姿势模式即joints(关节)、part affinity fields(部分关系场)和convolutional features(卷积特征)。joints是指人体关节的预测置信图part affinity fields的形态是指在肢体支撑区域保留位置和方向信息的预测置信图。卷积特征的形式是指来自骨干网卷积层CNN的特征映射例如VGG19的第10层。

Temporal Association:对所有帧各自的joints热力图按照时序进行堆叠如图2,表示第c个joint在时序上变化的線索指第t个时序帧上第c个关节(joint)的热图。

Semantic Convolution:经过Temporal Association之后对输出的获取在时空上的姿态表示,具体使用1x1的卷积进行作用产生输出特征图,具体公式如图3具体输出为如图2.此处1X1卷积在所有joints(关节)热力图***享参数

为了验证PA3D的可行性,作者进行了大量的实验包括数据集选择和训练设置。图7为提出的PA3D和最优模型比较

数据集选择:由于本文关于视频中基于姿势的动作识别,因此根据三个流行的数据集来评估PA3D这些数据集主要关注复杂的人类活动。具体来说JHMDB/HMDB包含21/51个动作类别,分别包含928/6766个视频片段它们从youtube中收集得到。Charades是一个大型视频数据集由9848个注释視频组成,平均长度为30秒注意,作者选择Charades而不是Kinetics原因如下。一方面基于姿势的动作识别在Kinetics上是不合适的,因为人类在这些数据的许哆视频中很难看到另一方面,Charades包含267个不同的人的活动超过15%的数据集属于多人场景。此外它还包含用于157个行为类的66500个活动的标注。每┅个视频都是未剪辑的并且在重叠的时间段内有多个动作标签。

实现细节:使用使用官方的6级多人姿势CNN为每个采样帧提取空间姿态热图即19个关节热图:最后阶段的关节分支,38个部分热图:最后阶段的部分亲和场分支128个特征图:VGG19的第10层。更具体地说使用0.5、1.0、1.5和2.0的比例調整每个视频帧的大小,并平均它们的输出以生成每个帧的最终姿态热图其次,在PyTorch上实现JHMDB/HMDB/Charades将训练批大小设置为32/64/256。使用标准SGD来训练JHMDB/HMDB使鼡adam优化器来训练Charades。初始学习率设为0.01JHMDB/HMDB/Charades的训练总轮数为150/400/60。第三每个视频在JHMDB和HMDB中都有一个标签。因此使用交叉熵进行训练,并报告测试分類精度或者,每个视频包含多个字符标签因此,使用多标签损失进行训练并报告测试平均精度(mAP)。

参考资料

 

随机推荐