- 机械工业出版社
- 9787111699408
- 1-1
- 431535
- 46257573-9
- 平装
- 16开
- 2022-04
- 656
- 440
- 工学
- 计算机科学与技术
- 人工智能
- 本科
内容简介
本教程通过阐述直观而严谨的机器学习方法,为学生学习和掌握研究和构建数据驱动产品所需的基本知识和实用工具。内容优先解析几何直觉和算法思维,为学生提供新颖和易于学习的方式;书中也强调机器学习结合实际应用,包括计算机视觉、自然语言处理、经济学、神经科学、推荐系统、物理学和生物学案例分析;作者精心设计300多幅彩色插图,让读者能够直观地掌握技术概念,另配100多个深入的编程练习(Python),为读者提供了对关键机器学习算法的真正理解。本书还在网上提供了一整套在线教辅资源,包括示例代码、数据集、交互式讲座幻灯片和习题解答,既可用于研究生机器学习课程教学,又能帮助个人自学参考使用。
目录
译者序
前言
致谢
作译者简介
第1章机器学习概论1
1.1引言1
1.2利用机器学习方法区分猫和狗1
1.3机器学习问题的基本体系4
1.3.1监督学习5
1.3.2无监督学习10
1.4数学优化11
1.5小结11
第一部分数学优化
第2章零阶优化技术142.1引言14
2.2零阶最优性条件15
2.3全局优化方法16
2.4局部优化方法18
2.4.1概览18
2.4.2一般框架18
2.4.3步长参数19
2.5随机搜索20
2.5.1概览21
2.5.2步长控制21
2.5.3基本步长规则23
2.5.4递减步长规则24
2.5.5随机搜索和维度灾难25
2.6坐标搜索和下降法26
2.6.1坐标搜索26
2.6.2坐标下降26
2.7小结27
2.8习题28
第3章一阶优化技术303.1引言30
3.2一阶最优性条件30
3.2.1可手工求解的一阶方程组的特例32
3.2.2坐标下降和一阶最优性条件33
3.3一阶泰勒级数的几何图形35
3.3.1超平面35
3.3.2最陡上升与最陡下降方向35
3.3.3梯度和最陡上升/下降方向36
3.4梯度的高效计算36
3.5梯度下降37
3.5.1梯度下降法的基本步长选择39
3.5.2代价函数历史图中的振荡:不一定总是坏事41
3.5.3收敛准则42
3.5.4Python实现43
3.6梯度下降法的固有缺陷43
3.6.1(负)梯度方向的缺陷是如何产生的44
3.6.2(负)梯度方向44
3.6.3梯度下降法的之字形走向45
3.6.4梯度下降法中的 “慢爬”现象46
3.7小结48
3.8习题48
第4章二阶优化技术51
4.1二阶最优性条件51
4.2二阶泰勒级数的几何形状53
4.2.1单输入二次函数的一般形状53
4.2.2多输入二次函数的一般形状53
4.2.3局部曲率和二阶泰勒级数54
4.3牛顿法55
4.3.1下降方向55
4.3.2算法57
4.3.3确保数值稳定性59
4.3.4步长选择60
4.3.5牛顿法作为一种zerofinding算法60
4.3.6Python实现61
4.4牛顿法的固有缺陷62
4.4.1最小化非凸函数62
4.4.2扩展的限制62
4.5小结63
4.6习题63
第二部分线性学习
第5章线性回归685.1引言68
5.2最小二乘法线性回归68
5.2.1符号和建模68
5.2.2最小二乘代价函数69
5.2.3最小二乘代价函数的最小化70
5.2.4Python实现72
5.3最小绝对偏差74
5.3.1最小二乘对离群点的敏感性74
5.3.2用绝对误差代替平方误差75
5.4回归质量度量76
5.4.1使用训练得到的模型进行预测76
5.4.2判断训练模型的质量77
5.5加权回归78
5.5.1处理副本78
5.5.2置信度加权79
5.6多输出回归79
5.6.1符号和建模79
5.6.2代价函数80
5.6.3Python实现81
5.7小结82
5.8习题82
5.9尾注84
第6章线性二分类问题866.1引言86
6.2逻辑回归和交叉熵代价函数86
6.2.1符号和建模86
6.2.2拟合一个非连续阶梯函数87
6.2.3逻辑sigmoid函数89
6.2.4使用最小二乘代价函数的逻辑回归89
6.2.5使用交叉熵代价函数的逻辑回归90
6.2.6最小化交叉熵代价函数91
6.2.7Python实现92
6.3逻辑回归和Softmax 代价函数92
6.3.1不同的标签,同样的故事93
6.3.2Python实现94
6.3.3含噪声的分类数据集96
6.4感知机96
6.4.1感知机代价函数96
6.4.2最小化感知机代价函数98
6.4.3感知机的Softmax近似98
6.4.4Softmax代价函数和线性可分离数据集99
6.4.5归一化特征相关权值100
6.4.6二分类问题的正则化102
6.5支持向量机103
6.5.1边界感知机103
6.5.2与Softmax代价函数的关系104
6.5.3最大边距决策边界105
6.5.4硬边界和软边界SVM问题106
6.5.5SVM和含噪数据107
6.6哪种方法能产生最好的结果108
6.7分类交叉熵代价函数108
6.7.1采用onehot编码的分类标签108
6.7.2非线性度的选择109
6.7.3代价函数的选择109
6.8分类质量指标110
6.8.1使用训练好的模型进行预测110
6.8.2置信度评分110
6.8.3利用准确率评价训练模型的质量111
6.8.4利用平衡准确率评价训练模型的质量112
6.8.5混淆矩阵和附加的质量指标113
6.9加权二分类问题114
6.9.1加权二分类115
6.9.2按置信度对点进行加权处理115
6.9.3处理类不平衡问题116
6.10小结117
6.11习题117
第7章线性多分类问题1197.1引言119
7.2OneversusAll多分类问题119
7.2.1符号和建模119
7.2.2训练C个OneversusAll分类器119
7.2.3情形1:点在单个分类器的正侧120
7.2.4情形2:点在一个以上分类器的正侧121
7.2.5情形3:点不在任何分类器的正侧122
7.2.6综合应用123
7.2.7OneversusAll算法124
7.3多分类问题与感知机125
7.3.1多分类感知机代价函数125
7.3.2最小化多分类感知机代价函数126
7.3.3多分类感知机代价函数的替代公式126
7.3.4多分类感知机的正则化问题127
7.3.5多分类Softmax代价函数127
7.3.6最小化多分类 Softmax代价函数128
7.3.7多分类Softmax代价函数的替代公式128
7.3.8正则化与多分类 Softmax代价函数129
7.3.9Python实现129
7.4哪种方法能产生最好的结果130
7.5分类交叉熵代价函数131
7.5.1离散概率分布131
7.5.2指数归一化132
7.5.3指数归一化符号距离132
7.5.4分类和分类交叉熵代价函数133
7.6分类质量指标135
7.6.1利用训练好的模型进行预测135
7.6.2置信度评分136
7.6.3利用准确率评价训练模型的质量136
7.6.4处理不平衡类的高级质量指标136
7.7加权多分类问题138
7.8随机和小批量学习138
7.9小结139
7.10习题140
第8章线性无监督学习142
8.1引言142
8.2固定的生成集、正交和投影142
8.2.1符号142
8.2.2使用固定生成集完美地表示数据143
8.2.3使用固定正交生成集完美地表示数据144
8.2.4使用固定生成集不完美地表示数据145
8.3线性自动编码器和主成分分析145
8.3.1学习合适的生成集146
8.3.2线性自动编码146
8.3.3主成分分析147
8.3.4Python实现149
8.4推荐系统149
8.4.1动机149
8.4.2符号和建模150
8.5K均值聚类150
8.5.1通过簇表示数据集151
8.5.2学习表示数据的簇152
8.6通用矩阵分解技术154
8.6.1无监督学习和矩阵分解问题154
8.6.2更多的变体156
8.7小结157
8.8习题157
8.9尾注158
8.9.1自动编码器的最小值都是正交矩阵158
8.9.2主成分的形式推导159
第9章特征工程和特征选择161
9.1引言161
9.2直方图特征161
9.2.1分类数据的直方图特征162
9.2.2文本数据的直方图特征163
9.2.3图像数据的直方图特征165
9.2.4音频数据的直方图特征169
9.3通过标准归一化实现特征缩放170
9.3.1标准归一化170
9.3.2标准归一化模型173
9.4在数据集中估算缺失值173
9.5通过PCA白化进行特征缩放173
9.5.1PCA白化:概览174
9.5.2PCA白化:技术细节174
9.5.3PCA白化模型176
9.6利用提升法进行特征选择176
9.6.1基于提升法的特征选择176
9.6.2利用提升法选择正确数量的特征177
9.6.3提升法的效率179
9.6.4从残差视角理解提升法回归179
9.7基于正则化的特征选择179
9.7.1使用权值向量范数进行正则化179
9.7.2利用1正则化进行特征选择180
9.7.3选择合适的正则化参数181
9.7.4比较正则化和提升法182
9.8小结182
9.9习题183
第三部分非线性学习
第10章非线性特征工程原理18610.1引言186
10.2非线性回归186
10.2.1建模原理186
10.2.2特征工程188
10.2.3Python实现190
10.3非线性多输出回归191
10.3.1建模原理191
0.3.2特征工程192
10.3.3Python实现193
10.4非线性二分类问题193
10.4.1建模原理193
10.4.2特征工程194
10.4.3Python实现196
10.5非线性多分类问题196
0.5.1建模原理197
10.5.2特征工程198
10.5.3Python实现199
10.6非线性无监督学习199
10.6.1建模原理199
10.6.2特征工程200
10.7小结201
10.8习题201
第11章特征学习原理20511.1引言205
1.1.1非线性特征工程的限制205
11.1.2内容概览206
11.1.3特征学习的复杂度刻度盘比喻206
11.2通用逼近器207
11.2.1完美数据207
11.2.2通用逼近的生成集类比209
11.2.3常用的通用逼近器213
11.2.4容量刻度盘和优化刻度盘215
11.3真实数据的通用逼近217
11.3.1典型例子218
11.3.2再论容量刻度盘和优化刻度盘222
11.3.3新度量工具的出现224
11.3.4验证错误225
11.4简单的交叉验证226
11.4.1概览226
11.4.2简单交叉验证的问题230
11.5通过提升法进行有效的交叉验证230
11.5.1概览230
11.5.2技术细节232
11.5.3早停法234
11.5.4廉价但有效的增强234
11.5.5与特征选择的相似性235
11.5.6带有回归的残差视角236
11.6借助正则化的高效交叉验证237
11.6.1概览237
11.6.2基于早停法的正则化239
11.6.3基于正则化器的方法242
11.6.4与特征选择正则化的相似性244
11.7测试数据245
11.7.1过拟合验证数据245
11.7.2测试数据和测试误差246
11.8哪一个通用逼近器在实践中工作得最好247
11.9装袋法交叉验证模型248
11.9.1装袋法回归模型248
11.9.2装袋法分类模型250
11.9.3实际中应该装袋多少个模型253
11.9.4集成:装袋法和提升法253
11.10K折交叉验证253
11.10.1K折交叉验证过程253
11.10.2K折交叉验证和高维线性建模255
11.11特征学习失败256
11.12小结257
11.13习题258
第12章核方法260
12.1引言260
12.2定形通用逼近器260
12.2.1三角函数通用逼近器260
12.2.2高输入的定形逼近器的扩展261
12.3核技巧262
12.3.1线性代数基本定理中的一个有用事实262
12.3.2机器学习代价函数的核化263
12.3.3机器学习中常用的核265
12.3.4使用核化模型进行预测268
12.4核作为度量相似度的指标268
12.5核化模型的优化269
12.6交叉验证核化学习器269
12.7小结270
12.8习题270
第13章全连接神经网络273
13.1引言273
13.2全连接神经网络介绍273
13.2.1单隐藏层单元273
13.2.2双隐藏层单元277
13.2.3一般多隐藏层单元280
13.2.4选择正确的网络体系结构282
13.2.5神经网络:生物学观点283
13.2.6Python实现283
13.3激活函数288
13.4反向传播算法290
13.5神经网络模型的优化290
13.6批量归一化292
13.6.1单隐藏层单元的批量归一化292
13.6.2多隐藏层单元的批量归一化295
13.6.3在批量归一化网络中对新数据点求值297
13.7通过早停法进行交叉验证297
13.8小结299
13.9习题299
第14章基于树的学习器301
14.1引言301
14.2从树桩到深度树301
14.2.1树桩301
14.2.2通过递归创建深度树302
14.2.3通过添加法创建深度树303
14.2.4可解释性303
14.3回归树303
14.3.1叶子值固定时确定最佳分裂点303
14.3.2固定分裂点时确定最佳叶子值304
14.3.3回归树桩的优化305
14.3.4更深的回归树307
14.4分类树307
14.4.1叶子值固定时确定最佳分裂点308
14.4.2固定分裂点时确定最佳叶子值308
14.4.3分类树桩的优化310
14.4.4更深的分类树311
14.5梯度提升312
14.5.1浅层树规则312
14.5.2使用基于树的学习器提升312
14.6随机森林314
14.7递归定义树的交叉验证技术315
14.7.1早停法315
14.7.2剪枝317
14.8小结318
14.9习题318
第四部分 附录
附录A 高级一阶和二阶优化方法322
附录B 导数和自动微分347
附录C 线性代数372
参考文献384
索引388
前言
致谢
作译者简介
第1章机器学习概论1
1.1引言1
1.2利用机器学习方法区分猫和狗1
1.3机器学习问题的基本体系4
1.3.1监督学习5
1.3.2无监督学习10
1.4数学优化11
1.5小结11
第一部分数学优化
第2章零阶优化技术142.1引言14
2.2零阶最优性条件15
2.3全局优化方法16
2.4局部优化方法18
2.4.1概览18
2.4.2一般框架18
2.4.3步长参数19
2.5随机搜索20
2.5.1概览21
2.5.2步长控制21
2.5.3基本步长规则23
2.5.4递减步长规则24
2.5.5随机搜索和维度灾难25
2.6坐标搜索和下降法26
2.6.1坐标搜索26
2.6.2坐标下降26
2.7小结27
2.8习题28
第3章一阶优化技术303.1引言30
3.2一阶最优性条件30
3.2.1可手工求解的一阶方程组的特例32
3.2.2坐标下降和一阶最优性条件33
3.3一阶泰勒级数的几何图形35
3.3.1超平面35
3.3.2最陡上升与最陡下降方向35
3.3.3梯度和最陡上升/下降方向36
3.4梯度的高效计算36
3.5梯度下降37
3.5.1梯度下降法的基本步长选择39
3.5.2代价函数历史图中的振荡:不一定总是坏事41
3.5.3收敛准则42
3.5.4Python实现43
3.6梯度下降法的固有缺陷43
3.6.1(负)梯度方向的缺陷是如何产生的44
3.6.2(负)梯度方向44
3.6.3梯度下降法的之字形走向45
3.6.4梯度下降法中的 “慢爬”现象46
3.7小结48
3.8习题48
第4章二阶优化技术51
4.1二阶最优性条件51
4.2二阶泰勒级数的几何形状53
4.2.1单输入二次函数的一般形状53
4.2.2多输入二次函数的一般形状53
4.2.3局部曲率和二阶泰勒级数54
4.3牛顿法55
4.3.1下降方向55
4.3.2算法57
4.3.3确保数值稳定性59
4.3.4步长选择60
4.3.5牛顿法作为一种zerofinding算法60
4.3.6Python实现61
4.4牛顿法的固有缺陷62
4.4.1最小化非凸函数62
4.4.2扩展的限制62
4.5小结63
4.6习题63
第二部分线性学习
第5章线性回归685.1引言68
5.2最小二乘法线性回归68
5.2.1符号和建模68
5.2.2最小二乘代价函数69
5.2.3最小二乘代价函数的最小化70
5.2.4Python实现72
5.3最小绝对偏差74
5.3.1最小二乘对离群点的敏感性74
5.3.2用绝对误差代替平方误差75
5.4回归质量度量76
5.4.1使用训练得到的模型进行预测76
5.4.2判断训练模型的质量77
5.5加权回归78
5.5.1处理副本78
5.5.2置信度加权79
5.6多输出回归79
5.6.1符号和建模79
5.6.2代价函数80
5.6.3Python实现81
5.7小结82
5.8习题82
5.9尾注84
第6章线性二分类问题866.1引言86
6.2逻辑回归和交叉熵代价函数86
6.2.1符号和建模86
6.2.2拟合一个非连续阶梯函数87
6.2.3逻辑sigmoid函数89
6.2.4使用最小二乘代价函数的逻辑回归89
6.2.5使用交叉熵代价函数的逻辑回归90
6.2.6最小化交叉熵代价函数91
6.2.7Python实现92
6.3逻辑回归和Softmax 代价函数92
6.3.1不同的标签,同样的故事93
6.3.2Python实现94
6.3.3含噪声的分类数据集96
6.4感知机96
6.4.1感知机代价函数96
6.4.2最小化感知机代价函数98
6.4.3感知机的Softmax近似98
6.4.4Softmax代价函数和线性可分离数据集99
6.4.5归一化特征相关权值100
6.4.6二分类问题的正则化102
6.5支持向量机103
6.5.1边界感知机103
6.5.2与Softmax代价函数的关系104
6.5.3最大边距决策边界105
6.5.4硬边界和软边界SVM问题106
6.5.5SVM和含噪数据107
6.6哪种方法能产生最好的结果108
6.7分类交叉熵代价函数108
6.7.1采用onehot编码的分类标签108
6.7.2非线性度的选择109
6.7.3代价函数的选择109
6.8分类质量指标110
6.8.1使用训练好的模型进行预测110
6.8.2置信度评分110
6.8.3利用准确率评价训练模型的质量111
6.8.4利用平衡准确率评价训练模型的质量112
6.8.5混淆矩阵和附加的质量指标113
6.9加权二分类问题114
6.9.1加权二分类115
6.9.2按置信度对点进行加权处理115
6.9.3处理类不平衡问题116
6.10小结117
6.11习题117
第7章线性多分类问题1197.1引言119
7.2OneversusAll多分类问题119
7.2.1符号和建模119
7.2.2训练C个OneversusAll分类器119
7.2.3情形1:点在单个分类器的正侧120
7.2.4情形2:点在一个以上分类器的正侧121
7.2.5情形3:点不在任何分类器的正侧122
7.2.6综合应用123
7.2.7OneversusAll算法124
7.3多分类问题与感知机125
7.3.1多分类感知机代价函数125
7.3.2最小化多分类感知机代价函数126
7.3.3多分类感知机代价函数的替代公式126
7.3.4多分类感知机的正则化问题127
7.3.5多分类Softmax代价函数127
7.3.6最小化多分类 Softmax代价函数128
7.3.7多分类Softmax代价函数的替代公式128
7.3.8正则化与多分类 Softmax代价函数129
7.3.9Python实现129
7.4哪种方法能产生最好的结果130
7.5分类交叉熵代价函数131
7.5.1离散概率分布131
7.5.2指数归一化132
7.5.3指数归一化符号距离132
7.5.4分类和分类交叉熵代价函数133
7.6分类质量指标135
7.6.1利用训练好的模型进行预测135
7.6.2置信度评分136
7.6.3利用准确率评价训练模型的质量136
7.6.4处理不平衡类的高级质量指标136
7.7加权多分类问题138
7.8随机和小批量学习138
7.9小结139
7.10习题140
第8章线性无监督学习142
8.1引言142
8.2固定的生成集、正交和投影142
8.2.1符号142
8.2.2使用固定生成集完美地表示数据143
8.2.3使用固定正交生成集完美地表示数据144
8.2.4使用固定生成集不完美地表示数据145
8.3线性自动编码器和主成分分析145
8.3.1学习合适的生成集146
8.3.2线性自动编码146
8.3.3主成分分析147
8.3.4Python实现149
8.4推荐系统149
8.4.1动机149
8.4.2符号和建模150
8.5K均值聚类150
8.5.1通过簇表示数据集151
8.5.2学习表示数据的簇152
8.6通用矩阵分解技术154
8.6.1无监督学习和矩阵分解问题154
8.6.2更多的变体156
8.7小结157
8.8习题157
8.9尾注158
8.9.1自动编码器的最小值都是正交矩阵158
8.9.2主成分的形式推导159
第9章特征工程和特征选择161
9.1引言161
9.2直方图特征161
9.2.1分类数据的直方图特征162
9.2.2文本数据的直方图特征163
9.2.3图像数据的直方图特征165
9.2.4音频数据的直方图特征169
9.3通过标准归一化实现特征缩放170
9.3.1标准归一化170
9.3.2标准归一化模型173
9.4在数据集中估算缺失值173
9.5通过PCA白化进行特征缩放173
9.5.1PCA白化:概览174
9.5.2PCA白化:技术细节174
9.5.3PCA白化模型176
9.6利用提升法进行特征选择176
9.6.1基于提升法的特征选择176
9.6.2利用提升法选择正确数量的特征177
9.6.3提升法的效率179
9.6.4从残差视角理解提升法回归179
9.7基于正则化的特征选择179
9.7.1使用权值向量范数进行正则化179
9.7.2利用1正则化进行特征选择180
9.7.3选择合适的正则化参数181
9.7.4比较正则化和提升法182
9.8小结182
9.9习题183
第三部分非线性学习
第10章非线性特征工程原理18610.1引言186
10.2非线性回归186
10.2.1建模原理186
10.2.2特征工程188
10.2.3Python实现190
10.3非线性多输出回归191
10.3.1建模原理191
0.3.2特征工程192
10.3.3Python实现193
10.4非线性二分类问题193
10.4.1建模原理193
10.4.2特征工程194
10.4.3Python实现196
10.5非线性多分类问题196
0.5.1建模原理197
10.5.2特征工程198
10.5.3Python实现199
10.6非线性无监督学习199
10.6.1建模原理199
10.6.2特征工程200
10.7小结201
10.8习题201
第11章特征学习原理20511.1引言205
1.1.1非线性特征工程的限制205
11.1.2内容概览206
11.1.3特征学习的复杂度刻度盘比喻206
11.2通用逼近器207
11.2.1完美数据207
11.2.2通用逼近的生成集类比209
11.2.3常用的通用逼近器213
11.2.4容量刻度盘和优化刻度盘215
11.3真实数据的通用逼近217
11.3.1典型例子218
11.3.2再论容量刻度盘和优化刻度盘222
11.3.3新度量工具的出现224
11.3.4验证错误225
11.4简单的交叉验证226
11.4.1概览226
11.4.2简单交叉验证的问题230
11.5通过提升法进行有效的交叉验证230
11.5.1概览230
11.5.2技术细节232
11.5.3早停法234
11.5.4廉价但有效的增强234
11.5.5与特征选择的相似性235
11.5.6带有回归的残差视角236
11.6借助正则化的高效交叉验证237
11.6.1概览237
11.6.2基于早停法的正则化239
11.6.3基于正则化器的方法242
11.6.4与特征选择正则化的相似性244
11.7测试数据245
11.7.1过拟合验证数据245
11.7.2测试数据和测试误差246
11.8哪一个通用逼近器在实践中工作得最好247
11.9装袋法交叉验证模型248
11.9.1装袋法回归模型248
11.9.2装袋法分类模型250
11.9.3实际中应该装袋多少个模型253
11.9.4集成:装袋法和提升法253
11.10K折交叉验证253
11.10.1K折交叉验证过程253
11.10.2K折交叉验证和高维线性建模255
11.11特征学习失败256
11.12小结257
11.13习题258
第12章核方法260
12.1引言260
12.2定形通用逼近器260
12.2.1三角函数通用逼近器260
12.2.2高输入的定形逼近器的扩展261
12.3核技巧262
12.3.1线性代数基本定理中的一个有用事实262
12.3.2机器学习代价函数的核化263
12.3.3机器学习中常用的核265
12.3.4使用核化模型进行预测268
12.4核作为度量相似度的指标268
12.5核化模型的优化269
12.6交叉验证核化学习器269
12.7小结270
12.8习题270
第13章全连接神经网络273
13.1引言273
13.2全连接神经网络介绍273
13.2.1单隐藏层单元273
13.2.2双隐藏层单元277
13.2.3一般多隐藏层单元280
13.2.4选择正确的网络体系结构282
13.2.5神经网络:生物学观点283
13.2.6Python实现283
13.3激活函数288
13.4反向传播算法290
13.5神经网络模型的优化290
13.6批量归一化292
13.6.1单隐藏层单元的批量归一化292
13.6.2多隐藏层单元的批量归一化295
13.6.3在批量归一化网络中对新数据点求值297
13.7通过早停法进行交叉验证297
13.8小结299
13.9习题299
第14章基于树的学习器301
14.1引言301
14.2从树桩到深度树301
14.2.1树桩301
14.2.2通过递归创建深度树302
14.2.3通过添加法创建深度树303
14.2.4可解释性303
14.3回归树303
14.3.1叶子值固定时确定最佳分裂点303
14.3.2固定分裂点时确定最佳叶子值304
14.3.3回归树桩的优化305
14.3.4更深的回归树307
14.4分类树307
14.4.1叶子值固定时确定最佳分裂点308
14.4.2固定分裂点时确定最佳叶子值308
14.4.3分类树桩的优化310
14.4.4更深的分类树311
14.5梯度提升312
14.5.1浅层树规则312
14.5.2使用基于树的学习器提升312
14.6随机森林314
14.7递归定义树的交叉验证技术315
14.7.1早停法315
14.7.2剪枝317
14.8小结318
14.9习题318
第四部分 附录
附录A 高级一阶和二阶优化方法322
附录B 导数和自动微分347
附录C 线性代数372
参考文献384
索引388