- 中国铁道出版社
- 9787113301507
- 1-1
- 502271
- 66259745-9
- 16开
- 2023-11
- 计算机类
- 高职
内容简介
本书为“十四五”高等职业教育新形态一体化教材之一,通过贴近生活的“挑橘子”一例引出机器学习的概念,并展开介绍了机器学习的完整流程、算法分类以及常用工具等。 本书以项目—任务的组织方式,以通俗的情境作为项目导入,制定明确的项目目标,以算法的基本原理为知识导入,然后开始项目实施环节,以多个实训任务分别练习算法在解决回归、分类或聚类问题时的一般流程,最后以习题的形式巩固所学知识和技能。
本书的实训项目主要包含机器学习中基础的算法应用,即线性回归算法、k-近邻算法、逻辑回归算法、决策树算法、聚类算法、朴素贝叶斯算法。 通读本书,你会了解机器学习解决的是什么问题,目前它应用在我们生活中的哪些场景;跟着本书动手实践,你会清楚数据怎么来、怎么加工,以及模型是什么,怎么训练与调用;另外,面对一个实际问题,你能够有依据地选择合适的算法。
本书适合作为高等职业院校人工智能技术应用专业的教材,也适用于有编程基础的学生以及对机器学习感兴趣且亟需入门的社会工作者。
本书的实训项目主要包含机器学习中基础的算法应用,即线性回归算法、k-近邻算法、逻辑回归算法、决策树算法、聚类算法、朴素贝叶斯算法。 通读本书,你会了解机器学习解决的是什么问题,目前它应用在我们生活中的哪些场景;跟着本书动手实践,你会清楚数据怎么来、怎么加工,以及模型是什么,怎么训练与调用;另外,面对一个实际问题,你能够有依据地选择合适的算法。
本书适合作为高等职业院校人工智能技术应用专业的教材,也适用于有编程基础的学生以及对机器学习感兴趣且亟需入门的社会工作者。
目录
绪论 机器学习概要 …………………………………………………………………………… 1
0. 1 引例———从挑橘子说起………………………………………………………………… 1
0. 2 机器学习应用 …………………………………………………………………………… 2
0. 3 机器学习与人工智能的关系 ………………………………………………………… 4
0. 4 机器学习算法的分类…………………………………………………………………… 4
0. 5 sklearn 库 ……………………………………………………………………………… 5
0. 6 数据集 …………………………………………………………………………………… 6
0. 6. 1 数据集划分………………………………………………………………………… 7
0. 6. 2 开源数据集………………………………………………………………………… 8
0. 6. 3 sklearn 库中数据划分方法 ……………………………………………………… 8
0. 7 总结 …………………………………………………………………………………… 11
项目 1 运用线性回归算法实现趋势预测 ……………………………………………… 12
1. 1 项目导入 ……………………………………………………………………………… 12
1. 2 项目目标 ……………………………………………………………………………… 12
1. 3 知识导入 ……………………………………………………………………………… 13
1. 3. 1 线性回归概念 …………………………………………………………………… 13
1. 3. 2 线性回归模型 …………………………………………………………………… 14
1. 3. 3 求解线性回归 …………………………………………………………………… 15
1. 3. 4 过拟合与欠拟合 ………………………………………………………………… 17
1. 4 项目实施 ……………………………………………………………………………… 19
任务 1-1 动手训练线性回归模型 ……………………………………………………… 19
任务 1-2 线性回归预测鲍鱼年龄 ……………………………………………………… 23
任务 1-3 线性回归预测牛肉价格 ……………………………………………………… 28
任务 1-4 线性回归预测收益 …………………………………………………………… 30
任务 1-5 线性回归预测乐高价格 ……………………………………………………… 35
项目 2 运用 k-近邻算法实现分类预测 ………………………………………………… 42
2. 1 项目导入 ……………………………………………………………………………… 42
2. 2 项目目标 ……………………………………………………………………………… 42
2. 3 知识导入 ……………………………………………………………………………… 42
2. 3. 1 k-近邻概念 ……………………………………………………………………… 42
2. 3. 2 k-近邻分类算法 ………………………………………………………………… 43
2. 3. 3 交叉验证 ………………………………………………………………………… 45
2. 3. 4 k-近邻回归 ……………………………………………………………………… 45
2. 4 项目实施 ……………………………………………………………………………… 46
任务 2-1 k-近邻识别数字验证码 ……………………………………………………… 46
任务 2-2 k-近邻算法预测出行方式 …………………………………………………… 49
任务 2-3 k-近邻预测草莓甜不甜 ……………………………………………………… 56
任务 2-4 k-近邻测你有多重 …………………………………………………………… 60
项目 3 运用逻辑回归算法实现概率预测 ……………………………………………… 65
3. 1 项目导入 ……………………………………………………………………………… 65
3. 2 项目目标 ……………………………………………………………………………… 65
3. 3 知识导入 ……………………………………………………………………………… 65
3. 3. 1 逻辑回归概念 …………………………………………………………………… 65
3. 3. 2 二分类问题 ……………………………………………………………………… 66
3. 3. 3 求解逻辑回归 …………………………………………………………………… 67
3. 3. 4 分类损失 ………………………………………………………………………… 68
3. 4 项目实施 ……………………………………………………………………………… 70
任务 3-1 逻辑回归针对智能家居的数据预测 ………………………………………… 70
任务 3-2 逻辑回归预测升学概率 ……………………………………………………… 76
任务 3-3 逻辑回归预测红酒质量 ……………………………………………………… 83
任务 3-4 随机梯度下降 ………………………………………………………………… 89
任务 3-5 逻辑回归预测用户是否按期还款 …………………………………………… 96
项目 4 运用决策树算法进行决策分析 ………………………………………………… 102
4. 1 项目导入 ……………………………………………………………………………… 102
4. 2 项目目标 ……………………………………………………………………………… 102
4. 3 知识导入 ……………………………………………………………………………… 103
4. 3. 1 决策树概念……………………………………………………………………… 103
4. 3. 2 相关重要概念…………………………………………………………………… 103
4. 3. 3 决策树算法……………………………………………………………………… 105
4. 3. 4 决策树剪枝……………………………………………………………………… 106
4. 4 项目实施 ……………………………………………………………………………… 107
任务 4-1 决策树预测隐形眼镜类型 ………………………………………………… 107
任务 4-2 决策树分析员工离职情况 ………………………………………………… 111
任务 4-3 决策树带你做导购 ………………………………………………………… 117
任务 4-4 决策树预测泰坦尼克号生还概率 ………………………………………… 122
任务 4-5 决策树与随机森林效果对比 ……………………………………………… 127
项目 5 运用聚类算法进行聚类分析 …………………………………………………… 137
5. 1 项目导入 ……………………………………………………………………………… 137
5. 2 项目目标 ……………………………………………………………………………… 137
5. 3 知识导入 ……………………………………………………………………………… 137
5. 3. 1 聚类概念………………………………………………………………………… 137
5. 3. 2 聚类相关应用…………………………………………………………………… 138
5. 3. 3 k-means 聚类 …………………………………………………………………… 138
5. 3. 4 DBSCAN 算法 …………………………………………………………………… 140
5. 4 项目实施 ……………………………………………………………………………… 142
任务 5-1 小样本实现 k-means 聚类 …………………………………………………… 142
任务 5-2 通过 k-means 聚类实现分类 ………………………………………………… 148
任务 5-3 二分 k-means 应用 …………………………………………………………… 153
任务 5-4 对三星手机数据降维并聚类 ……………………………………………… 162
任务 5-5 实例对比 k-means 和 DBSCAN ……………………………………………… 170
项目 6 运用朴素贝叶斯算法实现文本分类 ………………………………………… 175
6. 1 项目导入 ……………………………………………………………………………… 175
6. 2 项目目标 ……………………………………………………………………………… 175
6. 3 知识导入 ……………………………………………………………………………… 175
6. 3. 1 贝叶斯公式……………………………………………………………………… 175
6. 3. 2 朴素贝叶斯……………………………………………………………………… 176
6. 3. 3 朴素贝叶斯应用场景…………………………………………………………… 177
6. 4 项目实施 ……………………………………………………………………………… 177
任务 6-1 云盘图片自动分类 ………………………………………………………… 177
任务 6-2 豆瓣影评情感分类 ………………………………………………………… 184
任务 6-3 新闻分类 …………………………………………………………………… 188
附录 A …………………………………………………………………………………………… 194
A. 1 特征工程……………………………………………………………………………… 194
A. 2 特征预处理…………………………………………………………………………… 195
A. 2. 1 无量纲化 ……………………………………………………………………… 196
A. 2. 2 特征离散化 …………………………………………………………………… 200
A. 2. 3 分类特征编码 ………………………………………………………………… 201
A. 3 特征选择……………………………………………………………………………… 202
A. 3. 1 过滤式选择(Relief) …………………………………………………………… 203
A. 3. 2 包裹式选择(Wrapper) ………………………………………………………… 205
A. 3. 3 嵌入式选择(Embedded) ……………………………………………………… 205
A. 4 特征降维……………………………………………………………………………… 207
A. 4. 1 PCA …………………………………………………………………………… 207
A. 4. 2 LDA …………………………………………………………………………… 211
参考文献…………………………………………………………………………………………… 214
0. 1 引例———从挑橘子说起………………………………………………………………… 1
0. 2 机器学习应用 …………………………………………………………………………… 2
0. 3 机器学习与人工智能的关系 ………………………………………………………… 4
0. 4 机器学习算法的分类…………………………………………………………………… 4
0. 5 sklearn 库 ……………………………………………………………………………… 5
0. 6 数据集 …………………………………………………………………………………… 6
0. 6. 1 数据集划分………………………………………………………………………… 7
0. 6. 2 开源数据集………………………………………………………………………… 8
0. 6. 3 sklearn 库中数据划分方法 ……………………………………………………… 8
0. 7 总结 …………………………………………………………………………………… 11
项目 1 运用线性回归算法实现趋势预测 ……………………………………………… 12
1. 1 项目导入 ……………………………………………………………………………… 12
1. 2 项目目标 ……………………………………………………………………………… 12
1. 3 知识导入 ……………………………………………………………………………… 13
1. 3. 1 线性回归概念 …………………………………………………………………… 13
1. 3. 2 线性回归模型 …………………………………………………………………… 14
1. 3. 3 求解线性回归 …………………………………………………………………… 15
1. 3. 4 过拟合与欠拟合 ………………………………………………………………… 17
1. 4 项目实施 ……………………………………………………………………………… 19
任务 1-1 动手训练线性回归模型 ……………………………………………………… 19
任务 1-2 线性回归预测鲍鱼年龄 ……………………………………………………… 23
任务 1-3 线性回归预测牛肉价格 ……………………………………………………… 28
任务 1-4 线性回归预测收益 …………………………………………………………… 30
任务 1-5 线性回归预测乐高价格 ……………………………………………………… 35
项目 2 运用 k-近邻算法实现分类预测 ………………………………………………… 42
2. 1 项目导入 ……………………………………………………………………………… 42
2. 2 项目目标 ……………………………………………………………………………… 42
2. 3 知识导入 ……………………………………………………………………………… 42
2. 3. 1 k-近邻概念 ……………………………………………………………………… 42
2. 3. 2 k-近邻分类算法 ………………………………………………………………… 43
2. 3. 3 交叉验证 ………………………………………………………………………… 45
2. 3. 4 k-近邻回归 ……………………………………………………………………… 45
2. 4 项目实施 ……………………………………………………………………………… 46
任务 2-1 k-近邻识别数字验证码 ……………………………………………………… 46
任务 2-2 k-近邻算法预测出行方式 …………………………………………………… 49
任务 2-3 k-近邻预测草莓甜不甜 ……………………………………………………… 56
任务 2-4 k-近邻测你有多重 …………………………………………………………… 60
项目 3 运用逻辑回归算法实现概率预测 ……………………………………………… 65
3. 1 项目导入 ……………………………………………………………………………… 65
3. 2 项目目标 ……………………………………………………………………………… 65
3. 3 知识导入 ……………………………………………………………………………… 65
3. 3. 1 逻辑回归概念 …………………………………………………………………… 65
3. 3. 2 二分类问题 ……………………………………………………………………… 66
3. 3. 3 求解逻辑回归 …………………………………………………………………… 67
3. 3. 4 分类损失 ………………………………………………………………………… 68
3. 4 项目实施 ……………………………………………………………………………… 70
任务 3-1 逻辑回归针对智能家居的数据预测 ………………………………………… 70
任务 3-2 逻辑回归预测升学概率 ……………………………………………………… 76
任务 3-3 逻辑回归预测红酒质量 ……………………………………………………… 83
任务 3-4 随机梯度下降 ………………………………………………………………… 89
任务 3-5 逻辑回归预测用户是否按期还款 …………………………………………… 96
项目 4 运用决策树算法进行决策分析 ………………………………………………… 102
4. 1 项目导入 ……………………………………………………………………………… 102
4. 2 项目目标 ……………………………………………………………………………… 102
4. 3 知识导入 ……………………………………………………………………………… 103
4. 3. 1 决策树概念……………………………………………………………………… 103
4. 3. 2 相关重要概念…………………………………………………………………… 103
4. 3. 3 决策树算法……………………………………………………………………… 105
4. 3. 4 决策树剪枝……………………………………………………………………… 106
4. 4 项目实施 ……………………………………………………………………………… 107
任务 4-1 决策树预测隐形眼镜类型 ………………………………………………… 107
任务 4-2 决策树分析员工离职情况 ………………………………………………… 111
任务 4-3 决策树带你做导购 ………………………………………………………… 117
任务 4-4 决策树预测泰坦尼克号生还概率 ………………………………………… 122
任务 4-5 决策树与随机森林效果对比 ……………………………………………… 127
项目 5 运用聚类算法进行聚类分析 …………………………………………………… 137
5. 1 项目导入 ……………………………………………………………………………… 137
5. 2 项目目标 ……………………………………………………………………………… 137
5. 3 知识导入 ……………………………………………………………………………… 137
5. 3. 1 聚类概念………………………………………………………………………… 137
5. 3. 2 聚类相关应用…………………………………………………………………… 138
5. 3. 3 k-means 聚类 …………………………………………………………………… 138
5. 3. 4 DBSCAN 算法 …………………………………………………………………… 140
5. 4 项目实施 ……………………………………………………………………………… 142
任务 5-1 小样本实现 k-means 聚类 …………………………………………………… 142
任务 5-2 通过 k-means 聚类实现分类 ………………………………………………… 148
任务 5-3 二分 k-means 应用 …………………………………………………………… 153
任务 5-4 对三星手机数据降维并聚类 ……………………………………………… 162
任务 5-5 实例对比 k-means 和 DBSCAN ……………………………………………… 170
项目 6 运用朴素贝叶斯算法实现文本分类 ………………………………………… 175
6. 1 项目导入 ……………………………………………………………………………… 175
6. 2 项目目标 ……………………………………………………………………………… 175
6. 3 知识导入 ……………………………………………………………………………… 175
6. 3. 1 贝叶斯公式……………………………………………………………………… 175
6. 3. 2 朴素贝叶斯……………………………………………………………………… 176
6. 3. 3 朴素贝叶斯应用场景…………………………………………………………… 177
6. 4 项目实施 ……………………………………………………………………………… 177
任务 6-1 云盘图片自动分类 ………………………………………………………… 177
任务 6-2 豆瓣影评情感分类 ………………………………………………………… 184
任务 6-3 新闻分类 …………………………………………………………………… 188
附录 A …………………………………………………………………………………………… 194
A. 1 特征工程……………………………………………………………………………… 194
A. 2 特征预处理…………………………………………………………………………… 195
A. 2. 1 无量纲化 ……………………………………………………………………… 196
A. 2. 2 特征离散化 …………………………………………………………………… 200
A. 2. 3 分类特征编码 ………………………………………………………………… 201
A. 3 特征选择……………………………………………………………………………… 202
A. 3. 1 过滤式选择(Relief) …………………………………………………………… 203
A. 3. 2 包裹式选择(Wrapper) ………………………………………………………… 205
A. 3. 3 嵌入式选择(Embedded) ……………………………………………………… 205
A. 4 特征降维……………………………………………………………………………… 207
A. 4. 1 PCA …………………………………………………………………………… 207
A. 4. 2 LDA …………………………………………………………………………… 211
参考文献…………………………………………………………………………………………… 214