机器学习基础——面向预测数据分析的算法、实用范例与案例研究 / 数据科学与工程技术丛书
¥99.00定价
作者: [爱尔兰]约翰·D.凯莱赫,布莱恩·马克·纳著;顾卓尔译
出版时间:2020-04
出版社:机械工业出版社
- 机械工业出版社
- 9787111652335
- 1版
- 319592
- 47229658-1
- 平装
- 16开
- 2020-04
- 549
- 366
- 工学
- 软件工程
- 计算机类
- 本科
内容简介
目录
译者序
前言
符号记法
第1章 面向预测数据分析的机器学习 1
1.1 什么是预测数据分析 1
1.2 什么是机器学习 2
1.3 机器学习的工作原理 4
1.4 机器学习会产生什么问题 7
1.5 预测数据分析项目的生命周期:CRISP-DM 9
1.6 预测数据分析工具 10
1.7 本书概览 11
1.8 习题 12
第2章 数据到见解再到决策 13
2.1 将商业问题转化为分析解决方案 13
2.2 可行性评估 14
2.3 设计分析基础表 16
2.4 特征的设计与实现 19
2.4.1 不同的数据类型 20
2.4.2 不同的特征类型 20
2.4.3 处理时间 21
2.4.4 法律问题 23
2.4.5 特征的实现 25
2.4.6 案例研究:汽车保险诈骗 25
2.5 总结 28
2.6 延伸阅读 28
2.7 习题 29
第3章 数据探索 31
3.1 数据质量报告 31
3.2 了解数据 35
3.2.1 正态分布 37
3.2.2 案例研究:汽车保险诈骗 38
3.3 找出数据质量问题 39
3.3.1 缺失值 39
3.3.2 异常基数 40
3.3.3 离群点 40
3.3.4 案例研究:汽车保险诈骗 41
3.4 处理数据质量问题 42
3.4.1 处理缺失值 43
3.4.2 处理离群点 43
3.4.3 案例研究:汽车保险诈骗 44
3.5 高阶数据探索 45
3.5.1 可视化特征之间的关系 45
3.5.2 度量协方差和相关性 52
3.6 数据准备 56
3.6.1 归一化 56
3.6.2 分箱 57
3.6.3 采样 60
3.7 总结 61
3.8 延伸阅读 62
3.9 习题 62
第4章 基于信息的学习 73
4.1 大思路 73
4.2 基础知识 75
4.2.1 决策树 75
4.2.2 香农熵模型 77
4.2.3 信息增益 80
4.3 标准方法:ID3算法 83
4.4 延伸与拓展 89
4.4.1 其他特征选取与纯度度量方法 89
4.4.2 处理连续描述性特征 92
4.4.3 预测连续目标 95
4.4.4 剪枝 98
4.4.5 模型组合 100
4.5 总结 103
4.6 延伸阅读 104
4.7 习题 104
第5章 基于相似性的学习 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空间 110
5.2.2 用距离度量测量相似性 111
5.3 标准方法:最近邻算法 113
5.4 延伸与拓展 116
5.4.1 处理嘈杂数据 116
5.4.2 高效内存搜索 118
5.4.3 数据归一化 124
5.4.4 预测连续目标 127
5.4.5 其他相似性测量 129
5.4.6 特征选取 136
5.5 总结 141
5.6 延伸阅读 143
5.7 后记 144
5.8 习题 144
第6章 基于概率的学习 149
6.1 大思路 149
6.2 基础知识 151
6.2.1 贝叶斯定理 152
6.2.2 贝叶斯预测 154
6.2.3 条件独立与因子化 157
6.3 标准方法:朴素贝叶斯模型 160
6.4 延伸与拓展 163
6.4.1 平滑 163
6.4.2 连续特征:概率密度函数 166
6.4.3 连续特征:分箱 174
6.4.4 贝叶斯网络 177
6.5 总结 187
6.6 延伸阅读 188
6.7 习题 188
第7章 基于误差的学习 192
7.1 大思路 192
7.2 基础知识 192
7.2.1 简单线性回归 193
7.2.2 测量误差 194
7.2.3 误差曲面 196
7.3 标准方法:使用梯度下降法的多变量线性回归 197
7.3.1 多变量线性回归 198
7.3.2 梯度下降法 198
7.3.3 选择学习率和初始权值 203
7.3.4 实用范例 204
7.4 延伸与拓展 206
7.4.1 解释多变量线性回归模型 206
7.4.2 用权值衰减设定学习率 208
7.4.3 处理类别描述性特征 209
7.4.4 处理类别目标特征:对数几率回归 210
7.4.5 建模非线性关系 219
7.4.6 多项对数几率回归 223
7.4.7 支持向量机 226
7.5 总结 229
7.6 延伸阅读 231
7.7 习题 231
第8章 评估 237
8.1 大思路 237
8.2 基础知识 238
8.3 标准方法:留出测试集上的误分类率 238
8.4 延伸与拓展 241
8.4.1 设计评估实验 241
8.4.2 性能度量:类别目标 246
8.4.3 性能度量:预测得分 252
8.4.4 性能度量:多项目标 264
8.4.5 性能度量:连续目标 265
8.4.6 评估部署后的模型 268
8.5 总结 273
8.6 延伸阅读 273
8.7 习题 274
第9章 案例研究:客户流失 278
9.1 商业理解 278
9.2 数据理解 280
9.3 数据准备 283
9.4 建模 286
9.5 评估 289
9.6 部署 290
第10章 案例研究:星系分类 292
10.1 商业理解 292
10.2 数据理解 294
10.3 数据准备 299
10.4 建模 303
10.4.1 基准模型 303
10.4.2 特征选取 305
10.4.3 5级别模型 306
10.5 评估 307
10.6 部署 308
第11章 面向预测数据分析的机器学习艺术 309
11.1 预测模型的不同视角 310
11.2 选择机器学习方法 313
11.2.1 将机器学习方法和项目匹配 315
11.2.2 将机器学习方法和数据匹配 315
11.3 总结 316
附录A 机器学习的描述性统计量与数据可视化 317
附录B 机器学习的概率论导论 326
附录C 机器学习中的求导方法 332
参考文献 336
索引 343
前言
符号记法
第1章 面向预测数据分析的机器学习 1
1.1 什么是预测数据分析 1
1.2 什么是机器学习 2
1.3 机器学习的工作原理 4
1.4 机器学习会产生什么问题 7
1.5 预测数据分析项目的生命周期:CRISP-DM 9
1.6 预测数据分析工具 10
1.7 本书概览 11
1.8 习题 12
第2章 数据到见解再到决策 13
2.1 将商业问题转化为分析解决方案 13
2.2 可行性评估 14
2.3 设计分析基础表 16
2.4 特征的设计与实现 19
2.4.1 不同的数据类型 20
2.4.2 不同的特征类型 20
2.4.3 处理时间 21
2.4.4 法律问题 23
2.4.5 特征的实现 25
2.4.6 案例研究:汽车保险诈骗 25
2.5 总结 28
2.6 延伸阅读 28
2.7 习题 29
第3章 数据探索 31
3.1 数据质量报告 31
3.2 了解数据 35
3.2.1 正态分布 37
3.2.2 案例研究:汽车保险诈骗 38
3.3 找出数据质量问题 39
3.3.1 缺失值 39
3.3.2 异常基数 40
3.3.3 离群点 40
3.3.4 案例研究:汽车保险诈骗 41
3.4 处理数据质量问题 42
3.4.1 处理缺失值 43
3.4.2 处理离群点 43
3.4.3 案例研究:汽车保险诈骗 44
3.5 高阶数据探索 45
3.5.1 可视化特征之间的关系 45
3.5.2 度量协方差和相关性 52
3.6 数据准备 56
3.6.1 归一化 56
3.6.2 分箱 57
3.6.3 采样 60
3.7 总结 61
3.8 延伸阅读 62
3.9 习题 62
第4章 基于信息的学习 73
4.1 大思路 73
4.2 基础知识 75
4.2.1 决策树 75
4.2.2 香农熵模型 77
4.2.3 信息增益 80
4.3 标准方法:ID3算法 83
4.4 延伸与拓展 89
4.4.1 其他特征选取与纯度度量方法 89
4.4.2 处理连续描述性特征 92
4.4.3 预测连续目标 95
4.4.4 剪枝 98
4.4.5 模型组合 100
4.5 总结 103
4.6 延伸阅读 104
4.7 习题 104
第5章 基于相似性的学习 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空间 110
5.2.2 用距离度量测量相似性 111
5.3 标准方法:最近邻算法 113
5.4 延伸与拓展 116
5.4.1 处理嘈杂数据 116
5.4.2 高效内存搜索 118
5.4.3 数据归一化 124
5.4.4 预测连续目标 127
5.4.5 其他相似性测量 129
5.4.6 特征选取 136
5.5 总结 141
5.6 延伸阅读 143
5.7 后记 144
5.8 习题 144
第6章 基于概率的学习 149
6.1 大思路 149
6.2 基础知识 151
6.2.1 贝叶斯定理 152
6.2.2 贝叶斯预测 154
6.2.3 条件独立与因子化 157
6.3 标准方法:朴素贝叶斯模型 160
6.4 延伸与拓展 163
6.4.1 平滑 163
6.4.2 连续特征:概率密度函数 166
6.4.3 连续特征:分箱 174
6.4.4 贝叶斯网络 177
6.5 总结 187
6.6 延伸阅读 188
6.7 习题 188
第7章 基于误差的学习 192
7.1 大思路 192
7.2 基础知识 192
7.2.1 简单线性回归 193
7.2.2 测量误差 194
7.2.3 误差曲面 196
7.3 标准方法:使用梯度下降法的多变量线性回归 197
7.3.1 多变量线性回归 198
7.3.2 梯度下降法 198
7.3.3 选择学习率和初始权值 203
7.3.4 实用范例 204
7.4 延伸与拓展 206
7.4.1 解释多变量线性回归模型 206
7.4.2 用权值衰减设定学习率 208
7.4.3 处理类别描述性特征 209
7.4.4 处理类别目标特征:对数几率回归 210
7.4.5 建模非线性关系 219
7.4.6 多项对数几率回归 223
7.4.7 支持向量机 226
7.5 总结 229
7.6 延伸阅读 231
7.7 习题 231
第8章 评估 237
8.1 大思路 237
8.2 基础知识 238
8.3 标准方法:留出测试集上的误分类率 238
8.4 延伸与拓展 241
8.4.1 设计评估实验 241
8.4.2 性能度量:类别目标 246
8.4.3 性能度量:预测得分 252
8.4.4 性能度量:多项目标 264
8.4.5 性能度量:连续目标 265
8.4.6 评估部署后的模型 268
8.5 总结 273
8.6 延伸阅读 273
8.7 习题 274
第9章 案例研究:客户流失 278
9.1 商业理解 278
9.2 数据理解 280
9.3 数据准备 283
9.4 建模 286
9.5 评估 289
9.6 部署 290
第10章 案例研究:星系分类 292
10.1 商业理解 292
10.2 数据理解 294
10.3 数据准备 299
10.4 建模 303
10.4.1 基准模型 303
10.4.2 特征选取 305
10.4.3 5级别模型 306
10.5 评估 307
10.6 部署 308
第11章 面向预测数据分析的机器学习艺术 309
11.1 预测模型的不同视角 310
11.2 选择机器学习方法 313
11.2.1 将机器学习方法和项目匹配 315
11.2.2 将机器学习方法和数据匹配 315
11.3 总结 316
附录A 机器学习的描述性统计量与数据可视化 317
附录B 机器学习的概率论导论 326
附录C 机器学习中的求导方法 332
参考文献 336
索引 343