Python机器学习 / 数据科学与工程技术丛书
¥79.00定价
作者: [美]塞巴斯蒂安·拉施卡著;高明,徐莹,陶虎成译
译者:高明、徐莹等 译;
出版时间:2017-03
出版社:机械工业出版社
- 机械工业出版社
- 9787111558804
- 1版
- 227202
- 47229844-7
- 平装
- 16开
- 2017-03
- 379
- 271
- 工学
- 计算机科学与技术
- TP311.561
- 计算机通信类
- 本科
作者简介
内容简介
机器学习与预测分析正在改变企业和其他组织的运作方式,本书将带领读者进入预测分析的世界。全书共13章,除了简要介绍机器学习及Python在机器学习中的应用,还系统讲述了数据分类、数据预处理、模型优化、集成学习、回归、聚类、神经网络、深度学习等内容。本书将机器学习背后的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。本书讲解了如何使用Python的核心元素以及强大的机器学习库,同时还展示了如何正确使用一系列统计模型。本书可作为学习数据科学的初学者及想进一步拓展数据科学领域认识的读者的参考书。同样,本书也适合计算机等相关专业的本科生、研究生阅读。
目录
目 录译者序推荐序作者简介审校者简介前言第1章 赋予计算机学习数据的能力11.1构建智能机器将数据转化为知识11.2 机器学习的三种不同方法11.2.1 通过监督学习对未来事件进行预测21.2.2 通过强化学习解决交互式问题41.2.3 通过无监督学习发现数据本身潜在的结构41.2.4 基本术语及符号介绍51.3 构建机器学习系统的蓝图61.3.1 数据预处理61.3.2 选择预测模型类型并进行训练71.3.3 模型验证与使用未知数据进行预测81.4 Python在机器学习中的应用8本章小结9第2章 机器学习分类算法102.1 人造神经元—早期机器学习概览102.2 使用Python实现感知器学习算法132.3 自适应线性神经元及其学习的收敛性192.3.1 通过梯度下降最小化代价函数202.3.2 使用Python实现自适应线性神经元212.3.3 大规模机器学习与随机梯度下降25本章小结29第3章 使用scikit-learn实现机器学习分类算法303.1 分类算法的选择303.2 初涉scikit-learn的使用30使用scikit-learn训练感知器313.3 逻辑斯谛回归中的类别概率343.3.1 初识逻辑斯谛回归与条件概率343.3.2 通过逻辑斯谛回归模型的代价函数获得权重363.3.3 使用scikit-learn训练逻辑斯谛回归模型373.3.4 通过正则化解决过拟合问题393.4 使用支持向量机最大化分类间隔413.4.1 对分类间隔最大化的直观认识413.4.2 使用松弛变量解决非线性可分问题423.4.3 使用scikit-learn实现SVM443.5 使用核SVM解决非线性问题443.6 决策树483.6.1 最大化信息增益—获知尽可能准确的结果493.6.2 构建决策树523.6.3 通过随机森林将弱分类器集成为强分类器533.7 惰性学习算法—k-近邻算法54本章小结57第4章 数据预处理—构建好的训练数据集584.1 缺失数据的处理584.1.1 将存在缺失值的特征或样本删除594.1.2 缺失数据填充604.1.3 理解scikit-learn预估器的API604.2 处理类别数据614.2.1 有序特征的映射614.2.2 类标的编码624.2.3 标称特征上的独热编码634.3 将数据集划分为训练数据集和测试数据集644.4 将特征的值缩放到相同的区间654.5 选择有意义的特征664.5.1 使用L1正则化满足数据稀疏化674.5.2 序列特征选择算法704.6 通过随机森林判定特征的重要性74本章小结76第5章 通过降维压缩数据775.1 无监督数据降维技术—主成分分析775.1.1 总体方差与贡献方差785.1.2 特征转换805.1.3 使用scikit-learn进行主成分分析825.2 通过线性判别分析压缩无监督数据845.2.1 计算散布矩阵855.2.2 在新特征子空间上选取线性判别算法875.2.3 将样本映射到新的特征空间895.2.4 使用scikit-learn进行LDA分析905.3 使用核主成分分析进行非线性映射915.3.1 核函数与核技巧915.3.2 使用Python实现核主成分分析945.3.3 映射新的数据点995.3.4 scikit-learn中的核主成分分析102本章小结103第6章 模型评估与参数调优实战1046.1 基于流水线的工作流1046.1.1 加载威斯康星乳腺癌数据集1046.1.2 在流水线中集成数据转换及评估操作1056.2 使用k折交叉验证评估模型性能1066.2.1 holdout方法1066.2.2 k折交叉验证1076.3 通过学习及验证曲线来调试算法1106.3.1 使用学习曲线判定偏差和方差问题1106.3.2 通过验证曲线来判定过拟合与欠拟合1126.4 使用网格搜索调优机器学习模型1136.4.1 使用网络搜索调优超参1146.4.2 通过嵌套交叉验证选择算法1156.5 了解不同的性能评价指标1166.5.1 读取混淆矩阵1166.5.2 优化分类模型的准确率和召回率1176.5.3 绘制ROC曲线1186.5.4 多类别分类的评价标准121本章小结121第7章 集成学习—组合不同的模型1227.1 集成学习1227.2 实现一个简单的多数投票分类器1257.3 评估与调优集成分类器1317.4 bagging —通过bootstrap样本构建集成分类器1357.5 通过自适应boosting提高弱学习机的性能138本章小结143第8章 使用机器学习进行情感分析1448.1 获取IMDb电影评论数据集1448.2 词袋模型简介1468.2.1 将单词转换为特征向量1468.2.2 通过词频-逆文档频率计算单词关联度1478.2.3 清洗文本数据1488.2.4 标记文档1498.3 训练用于文档分类的逻辑斯谛回归模型1518.4 使用大数据—在线算法与外存学习152本章小结155第9章 在Web应用中嵌入机器学习模型1569.1 序列化通过scikit-learn拟合的模型1569.2 使用SQLite数据库存储数据1589.3 使用Flask开发Web应用1609.3.1 第一个Flask Web应用1609.3.2 表单验证及渲染1619.4 将电影分类器嵌入Web应用1649.5 在公共服务器上部署Web应用169本章小结172第10章 使用回归分析预测连续型目标变量17310.1 简单线性回归模型初探17310.2 波士顿房屋数据集17410.3 基于最小二乘法构建线性回归模型17810.3.1 通过梯度下降计算回归参数17810.3.2 使用scikit-learn估计回归模型的系数18110.4 使用RANSAC拟合高鲁棒性回归模型18210.5 线性回归模型性能的评估18410.6 回归中的正则化方法18510.7 线性回归模型的曲线化-多项式回归18610.7.1 房屋数据集中的非线性关系建模18810.7.2 使用随机森林处理非线性关系190本章小结193第11章 聚类分析——处理无类标数据19411.1 使用k-means算法对相似对象进行分组19411.1.1 k-means 19611.1.2 硬聚类与软聚类19811.1.3 使用肘方法确定簇的最佳数量19911.1.4 通过轮廓图定量分析聚类质量20011.2 层次聚类20311.2.1 基于距离矩阵进行层次聚类20411.2.2 树状图与热度图的关联20711.2.3 通过scikit-learn进行凝聚聚类20811.3 使用DBSCAN划分高密度区域209本章小结212第12章 使用人工神经网络识别图像21312.1 使用人工神经网络对复杂函数建模21312.1.1 单层神经网络回顾21412.1.2 多层神经网络架构简介21512.1.3 通过正向传播构造神经网络21612.2 手写数字的识别21812.2.1 获取MNIST数据集21812.2.2 实现一个多层感知器22212.3 人工神经网络的训练22812.3.1 计算逻辑斯谛代价函数22812.3.2 通过反向传播训练神经网络23012.4 建立对反向传播的直观认识23112.5 通过梯度检验调试神经网络23212.6 神经网络的收敛性23612.7 其他神经网络架构23712.7.1 卷积神经网络23712.7.2 循环神经网络23812.8 关于神经网络的实现239本章小结240第13章 使用Theano并行训练神经网络24113.1 使用Theano构建、编译并运行表达式24113.1.1 什么是Theano24213.1.2 初探Theano24313.1.3 配置Theano24413.1.4 使用数组结构24513.1.5 整理思路—线性回归示例24713.2 为前馈神经网络选择激励函数25013.2.1 逻辑斯谛函数概述25013.2.2 通过softmax函数评估多类别分类任务中的类别概率25213.2.3 通过双曲正切函数增大输出范围25213.3 使用Keras提高训练神经网络的效率254本章小结258