深度学习视频理解
  • 推荐0
  • 收藏0
  • 浏览179

深度学习视频理解

张皓 (作者) 

  • 书  号:978-7-121-41980-5
  • 出版日期:2021-09-26
  • 页  数:324
  • 开  本:16(170*240)
  • 出版状态:上市销售
  • 维护人:李利健
纸质版 ¥128.00
视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍,对于每个领域,本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。最后总结了常用的一些视频处理工具。
前言
随着互联网技术,特别是移动互联网技术的发展,网络视频(含短视频)已经成为当今互联网重要的内容表现形式,相比于纯文本和图文内容形式,视频内容更加丰富,对用户更有吸引力。随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大,多种场景下积累了大量的视频数据,亟需有效地对视频进行管理、分析和处理的工具。视频理解旨在通过智能分析技术,自动地对视频中的内容进行识别和解析。
写作本书的主因是笔者初入视频理解这一计算机视觉分支时,相关的入门资料不是很多,于是规定自己每天必须看完一定数量的学术论文,但是相关学术论文浩如烟海,无从下手,难以厘清其中的发展脉络,不免有“只见树木,不见森林”的感觉。因此,笔者切身体会到,对于某个领域的初学者,一本入门书籍十分重要。
笔者曾于 2018 年在自媒体平台写作《视频理解近期研究进展》一文,对视频理解的相关算法进行了梳理,并受到读者好评。受篇幅所限,该文比较简略,只是列举了相关算法的一些要点,并且该文主要集中在视频理解中的动作识别领域。随后笔者决定动手写作本书,希望对初学者有所帮助,起到“随风潜入夜,润物细无声”的作用。
全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和 RNN,图像分类和 RNN 是动作识别的基础;第3章和第4章介绍动作识别的重要算法,动作识别旨在识别出视频中出现的动作;第5章介绍时序动作定位的重要算法,时序动作定位不仅要预测视频中包含了什么动作,还需要预测动作的起始和终止时刻;第6章介绍视频 Embedding 的重要算法,Embedding 的主要作用是从视频中得到一个特征向量,这个特征向量是对整个视频内容的总结和概括;最后总结了一些常用的视频处理工具。
视频理解相关学术论文的作者来自世界各地,并且都有各自的写作风格和公式符号应用习惯。本书在写作时统一了全书的公式符号,并且重新设计和绘制了大量的插图,力求全书行文和插图连贯,风格统一,使初学者更容易掌握本书内容。全书中不可避免地会涉及一些公式,有些还比较复杂,读者结合插图更容易理解其中的含义。每枚硬币都有两面,对于对视频理解有一些了解、阅读过一些相关学术论文的读者,可能会觉得插图或公式符号和原论文中不太相同,但是其中的算法思想是一致的。本书在介绍有关算法时进行了归类,这种归类不见得是最严谨的,算法介绍的先后顺序也并不严格按照原论文发表的时间先后顺序,笔者出于使读者更容易理解和把握算法发展脉络的立场进行写作。
本书正文中提及见“链接1”“链接2”等时,可添加封底【读者服务】处客服好友,发送“五位书号”获取链接文件。
本书在内容上尽量涵盖视频理解的3大基础领域(动作识别、时序动作定位、视频 Embedding)的重要算法,但受篇幅和时间所限,很多重要、前沿的内容未能覆盖,即使覆盖到的也是管中窥豹。在有本书的基础之后,可以降低读者阅读有关学术论文原文,以及进一步学习和钻研的难度。
笔者在写作时,深恐不慎以致误人子弟,为了写作本书,笔者将本书涉及的学术论文重新找来又仔细推敲一遍。写作过程并不轻松,极耗时间和精力,但是受益良多,为了能使读者受益,笔者需要反复思考书中内容如何取舍、从何角度介绍算法、各算法间演进关系等,对视频理解的认识又加深了一层。“一花独放不是春,百花齐放春满园”。借此机会,笔者希望能有更多的有志之士为初学者分享自己的知识和心得。
感谢林天威先生、王烨鑫先生和魏秀参教授为本书写推荐语,感谢电子工业出版社李利健编辑为本书提出的有价值的修改意见,感谢腾讯在线视频特别是 AI 技术中心的大力支持,感谢笔者的其他亲朋好友的支持和理解,写作本书几乎耗尽了笔者所有的节假日和休息时间。
视频理解技术的发展极为迅速,它目前已经成为一个十分广袤的计算机视觉分支。笔者自认才疏学浅,加上时间和精力有限,书中错漏之处在所难免,敬请读者批评、指正,本书勘误请发送邮件至:zhangh0214@gmail.com。
张皓
2021 年8月于广东深圳

目录

第1章 绪论 1
1.1 引言 1
1.2 本书内容 5
1.2.1 图像分类 7
1.2.2 动作识别 9
1.2.3 时序动作定位 12
1.2.4 视频 Embedding 14
1.3 本章小结 15
第2章 经典网络结构回顾 16
2.1 经典图像分类网络 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 随机深度网络 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸与梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小结 60
第3章 基于2D卷积的动作识别 62
3.1 平均汇合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各帧特征 77
3.3.1 2D卷积 + RNN的基本结构 78
3.3.2 对RNN结构进行改造 80
3.4 利用3D卷积融合各帧特征 81
3.4.1 什么是3D卷积 82
3.4.2 ECO 85
3.5 双流法 87
3.5.1 什么是光流 87
3.5.2 双流法的基本网络结构 89
3.5.3 双流法的网络结构优化 91
3.6 时序稀疏采样 95
3.6.1 TSN 95
3.6.2 TSN的实现 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT轨迹 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小结 108
第4章 基于3D卷积的动作识别 110
4.1 3D卷积基础网络结构 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5类动作识别网络 118
4.2.2 2D卷积扩展为3D卷积 119
4.2.3 5类网络对比 121
4.3 3D卷积的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2+1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D卷积 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 动作识别网络 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 网络结构设计 151
4.9 3D卷积神经网络超参数设计 152
4.9.1 多网格训练 152
4.9.2 X3D 154
4.10 本章小结 157
第5章 时序动作定位 159
5.1 基于滑动窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基于候选时序区间的算法 171
5.2.1 Faster R-CNN 回顾 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的时序动作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 对时序结构信息建模的算法 197
5.4.1 TAG 候选时序区间生成算法 198
5.4.2 SSN 网络结构 199
5.5 逐帧预测的算法 202
5.5.1 CDC层 203
5.5.2 CDC 网络结构 206
5.6 单阶段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小结 217
第6章 视频Embedding 219
6.1 基于视频内容的无监督 Embedding 220
6.1.1 编码-解码网络 221
6.1.2 视频序列验证 222
6.1.3 视频和音频信息 224
6.1.4 视频和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分层 Softmax 234
6.2.3 负采样 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改进 249
6.4 基于图的随机游走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 结合一二阶相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基于图的邻居结点 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基于多种信息学习视频Embedding 274
6.7.1 召回模型 276
6.7.2 训练 278
6.8 本章小结 280
附录A 视频处理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
参考文献 296

读者评论

相关博文

  • 深度学习视频理解之图像分类

    深度学习视频理解之图像分类

    博文小编 2021-10-09

    【原创:张皓】 根据中国互联网络信息中心(CNNIC)第47次《中国互联网络发展状况统计报告》,截至2020年12月,中国网民规模达到9.89亿人,其中网络视频(含短视频)用户规模达到9.27亿人,占网民整体的93.7%,短视频用户...

    博文小编 2021-10-09
    476 0 0 0