深度学习视频理解之图像分类

【原创：张皓】

根据中国互联网络信息中心（CNNIC）第47次《中国互联网络发展状况统计报告》，截至2020年12月，中国网民规模达到9.89亿人，其中网络视频（含短视频）用户规模达到9.27亿人，占网民整体的93.7%，短视频用户规模为8.73亿人，占网民整体的88.3%。

回顾互联网近年来的发展历程，伴随着互联网技术（特别是移动互联网技术）的发展，内容的主流表现形式经历了从纯文本时代逐渐发展到图文时代，再到现在的视频和直播时代的过渡，相比于纯文本和图文内容形式，视频内容更加丰富，对用户更有吸引力。

随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大，多种场景下积累了大量的视频数据，需要一种有效地对视频进行管理、分析和处理的工具。

视频理解旨在通过智能分析技术，自动化地对视频中的内容进行识别和解析。视频理解算法顺应了这个时代的需求。因此，近年来受到了广泛关注，取得了快速发展。

图像分类（Image Classification）是视频理解的基础，视频可以看作是由一组图像帧（Frame）按时间顺序排列而成的数据结构，RNN（Recurrent Neural Networks，循环神经网络）对时序数据（Sequential Data）有很强的建模能力。

本文将介绍 RNN和它的两个重要变种，即LSTM（Long Short-Term Memory，长短期记忆网络）（Hochreiter & Schmidhuber, 1997）和GRU（Gated Recurrent Units，门控循环单元）（Cho et al., 2014）。

本文介绍的RNN 及其变种 LSTM和GRU 十分擅长处理时序数据，但是LSTM和GRU的结构和运行机理比较复杂，不好理解，因此这里会介绍一种通用的方法，通过对 LSTM和GRU 数学形式的3次简化并将数据流画成一张图，可以简洁、直观地对其中的原理进行理解与分析。

本文节选自《深度学习视频理解》一书，作者张皓

本书重点介绍视频理解中的3大基础领域：动作识别（Action Recognition）、时序动作定位（Temporal Action Localization）和视频 Embedding。

动作识别的目标是识别出视频中出现的动作，通常是视频中人的动作。动作识别是视频理解的核心领域，虽然动作识别主要是识别视频中人的动作，但是该领域发展出来的算法大多数不特定针对人，也可以用于其他视频分类场景；

时序动作定位也称为时序动作检测（Temporal Action Detection），是视频理解的另一个重要领域。动作识别可以看作是一个纯分类问题，其中要识别的视频基本已经经过剪辑（Trimmed），即每个视频包含一段明确的动作，视频时长较短，且有唯一确定的动作类别。而在时序动作定位领域，视频通常没有被剪辑（Untrimmed），视频时长较长，动作通常只发生在视频中的一小段时间内，视频可能包含多个动作，也可能不包含动作，即为背景（Background）类。时序动作定位不仅要预测视频中包含了什么动作，还需要预测动作的起始和终止时刻；

视频Embedding的主要作用是从视频中得到一个低维、稠密、浮点的特征向量表示，这个特征向量是对整个视频内容的总结和概括，使得不同视频 Embedding之间的距离（如欧式距离或余弦距离）反映了对应视频之间的相似性。

图书分类

领导力Lead可持续战略成功：班长的战争

特色专题

帮助

深度学习视频理解之图像分类

博文小编

（五折专享优惠，快快扫码抢购吧！）

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。