机器学习互联网业务安全实践-图书

推荐0
收藏3
浏览994

机器学习互联网业务安全实践

王帅 , 吴哲夫 (作者)　

书　　号：9787121355684
出版日期：2019-09-01
页　　数：
开　　本：
出版状态：上市销售
维护人：张春雨

互联网产业正在从IT时代迈入DT时代（数据时代），同时互联网产业的繁荣也催生了黑灰产这样的群体。那么，在数据时代应该如何应对互联网业务安全威胁？机器学习技术在互联网业务安全领域的应用正是答案。本书首先从机器学习技术的原理入手，自成体系地介绍了机器学习的基础知识，从数学的角度揭示了算法模型背后的基本原理；然后介绍了互联网业务安全所涉及的重要业务场景，以及机器学习技术在这些场景中的应用实践；最后介绍了如何应用互联网技术栈来建设业务安全技术架构。作者根据多年的一线互联网公司从业经验给出了很多独到的见解，供读者参考。本书既适合机器学习从业者作为入门参考书，也适合互联网业务安全从业者学习黑灰产对抗手段，帮助他们做到知己知彼，了解如何应用机器学习技术来提高与黑灰产对抗的能力。

1、机器学习技术在业务安全中的快速入门指南；
2、以案例地形式生动展现了互联网业务面临的安全威胁以及如何利用机器学习技术与之对抗。

王帅，花名“莲华”，美丽联合集团（蘑菇街）安全部风控算法技术负责人。2015年初加入蘑菇街，主要负责风控相关的反作弊算法，从无到有搭建了电商平台的风控策略架构体系，主要研究方向是基于机器学习的风控算法策略。

吴哲夫，本科就读于山东大学，研究生就读于北京大学，曾在微软亚洲研究院实习，毕业后就职于阿里巴巴（北京），现供职于美丽联合集团。

机器学习学科的发展大体经历了规则学习、统计学习、深度学习这三大阶段。从最早的结构化的人机赛棋，到广泛领域的知识问答，再到当下红极一时的自动驾驶等工业领域，机器学习已经被成功应用到模式识别、数据挖掘、自然语言处理、人工智能、语音识别、图像识别等各个领域，并且被综合应用到信息检索、生物信息技术、自动驾驶、无人机、AR/VR、医疗、教育等各个行业。

机器学习的很多方法在原理上是相通的，只不过适用的领域不同。机器学习的能力比较强大，应用范围广泛，要解决的问题多且繁杂，因此并不存在一个适用于所有问题的结构化方法。这就要求机器学习工程师具备较高的素质，除了掌握计算机科学基础的三个方面的知识（系统、软件、理论），还要对机器学习算法有深入的了解，只有这样才可以搭建出一个适用于工业界应用的好框架。

基础决定深度。一般来讲，机器学习由模型（建模）、策略（学习方法）、算法（实现）三部分组成，叫作机器学习三要素。这三部分层层递进，推理的难度逐渐增加，对人的要求也不一样：在建模过程中需要有理解能力，在设计学习方法时需要有数学推理能力，最终将学习方法实现为算法时需要有转化能力。当然，一些资深的程序员或者ACM（Association for Computing Machinery）竞赛的参赛者，本身有非常强的代码理解能力，这些能力能帮助他们理解算法，并进一步理解机器学习的过程。

要想成为一名优秀的机器学习工程师，必须有良好的数学基础。在本科阶段学习的数值分析、线性代数、概率与统计、离散数学等课程知识，对于理解大多数模型来说已经足够了。概率与统计及离散数学是理解模型的基础，线性代数决定了你实现算法的能力，数值分析决定了推衍过程。

第1章互联网业务安全简述 1
1．1 互联网业务安全现状 1
1．2 如何应对挑战 4
1．3 本章小结 6
参考资料 6
第2章机器学习入门 8
2．1 相似性 9
2．1．1 范数 9
2．1．2 度量 12
2．2 矩阵 20
2．2．1 线性空间 20
2．2．2 线性算子 24
2．3 空间 33
2．3．1 内积空间 33
2．3．2 欧几里得空间（Euclid space） 34
2．3．3 酉空间 37
2．3．4 赋范线性空间 38
2．3．5 巴拿赫空间 39
2．3．6 希尔伯特空间 43
2．3．7 核函数 44
2．4 机器学习中的数学结构 46
2．4．1 线性结构与非线性结构 46
2．4．2 图论基础 47
2．4．3 树 56
2．4．4 神经网络 62
2．4．5 深度网络结构 80
2．4．6 小结 95
2．5 统计基础 96
2．5．1 贝叶斯统计 96
2．5．2 共轭先验分布 99
2．6 策略与算法 106
2．6．1 凸优化的基本概念 106
2．6．2 对偶原理 120
2．6．3 非线性规划问题的解决方法 129
2．6．4 无约束问题的最优化方法 134
2．7 机器学习算法应用的经验 145
2．7．1 如何定义机器学习目标 145
2．7．2 如何从数据中获取最有价值的信息 149
2．7．3 评估模型的表现 154
2．7．4 测试效果远差于预期怎么办 156
2．8 本章小结 159
参考资料 160
第3章模型 163
3．1 基本概念 163
3．2 模型评价指标 166
3．2．1 混淆矩阵 167
3．2．2 分类问题的基础指标 167
3．2．3 ROC曲线与AUC 171
3．2．4 基尼系数 173
3．2．5 回归问题的评价指标 175
3．2．6 交叉验证 175
3．3 回归算法 177
3．3．1 最小二乘法 177
3．3．2 脊回归 181
3．3．3 Lasso回归线性模型 181
3．3．4 多任务Lasso 181
3．3．5 L1、L2正则杂谈 182
3．4 分类算法 183
3．4．1 CART算法 183
3．4．2 支持向量机 186
3．5 降维 188
3．5．1 贝叶斯网络 189
3．5．2 主成分分析 195
3．6 主题模型LDA 198
3．6．1 马尔可夫链蒙特卡罗法 198
3．6．2 贝叶斯网络与生成模型 199
3．6．3 学习方法在LDA中的应用 206
3．7 集成学习方法（Ensemble Method） 215
3．7．1 Boosting方法 216
3．7．2 Bootstrap Aggregating方法 220
3．7．3 Stacking方法 221
3．7．4 小结 222
参考资料 223
第4章机器学习实践的基础包 226
4．1 简介 226
4．2 Python机器学习基础环境 228
4．2．1 Jupyter Notebook 228
4．2．2 Numpy、Scipy、Matplotlib和pandas 231
4．2．3 scikit-learn、gensim、TensorFlow和Keras 250
4．3 Scala的基础库 266
4．3．1 Zeppelin 266
4．3．2 Breeze 267
4．3．3 Spark MLlib 276
4．4 本章小结 281
参考资料 282
第5章机器学习实践的金刚钻 283
5．1 简介 283
5．2 XGBoost 284
5．3 Prediction IO（PIO） 287
5．3．1 部署PIO 287
5．3．2 机器学习模型引擎的开发 294
5．3．3 机器学习模型引擎的部署 296
5．3．4 PIO系统的优化 297
5．4 Caffe 298
5．5 TensorFlow 304
5．6 BigDL 306
5．7 本章小结 308
参考资料 308
第6章账户业务安全 310
6．1 背景介绍 310
6．2 账户安全保障 312
6．2．1 注册环节 312
6．2．2 登录环节 314
6．3 聚类算法在账户安全中的应用 315
6．3．1 K-Means算法 315
6．3．2 高斯混合模型（GMM） 317
6．3．3 OPTICS算法和DBSCAN算法 326
6．3．4 应用案例 331
6．4 本章小结 334
参考资料 334
第7章平台业务安全 335
7．1 背景介绍 335
7．2 电商平台业务安全 338
7．3 社交平台业务安全 343
7．4 复杂网络算法在平台业务安全中的应用 346
7．4．1 在电商平台作弊团伙识别中的应用 346
7．4．2 在识别虚假社交关系中的应用 351
7．5 本章小结 353
参考资料 354
第8章内容业务安全 355
8．1 背景介绍 355
8．2 如何做好内容业务安全工作 357
8．2．1 面临的挑战 357
8．2．2 部门协作 358
8．2．3 技术体系 359
8．3 卷积神经网络在内容业务安全中的应用 361
8．3．1 人工神经网络（Artificial Neural Network） 361
8．3．2 深度神经网络（Deep Neural Network） 367
8．3．3 卷积神经网络（Convolutional Neural Network） 379
8．3．4 应用案例 392
8．4 本章小结 405
参考资料 405
第9章信息业务安全 406
9．1 背景介绍 406
9．2 反欺诈业务 407
9．3 反爬虫业务 412
9．3．1 验证问题的可分性 412
9．3．2 提升模型效果 413
9．4 循环神经网络在信息安全中的应用 414
9．4．1 原始RNN（Vanilla RNN） 414
9．4．2 LSTM算法及其变种 415
9．4．3 应用案例 419
9．5 本章小结 429
参考资料 430

第10章信贷业务安全 432
10．1 背景介绍 432
10．2 信贷业务安全简介 434
10．3 分类算法在信贷业务安全中的应用 438
10．3．1 典型分类算法的介绍 438
10．3．2 应用案例：逻辑回归模型在信贷中风控阶段的应用 463
10．4 本章小结 468
参考资料 469
第11章业务安全系统技术架构 470
11．1 整体介绍 470
11．2 平台层 471
11．3 数据层 473
11．4 策略层 474
11．5 服务层 480
11．6 业务层 481
11．7 本章小结 484
参考资料 484
第12章总结与展望 486
12．1 总结 486
12．2 展望 487
参考资料 489
后记一 490
后记二 491
本书常见数学符号定义 492