大数据分析与挖掘
¥64.00定价
作者: 云本胜
出版时间:2024-12
出版社:电子工业出版社
浙江省“十四五”普通高等教育本科规划教材
- 电子工业出版社
- 9787121473647
- 1-2
- 540825
- 16开
- 2024-12
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书以大数据分析与挖掘的常用技术与真实案例相结合的方式,按照“概念和原理讲解、案例分析、能力拓展——Python 软件应用”的层次进行阐述,深入浅出地介绍大数据分析与挖掘的重要内容。__eol__全书共 11 章,第 1 章作为全书的绪论,介绍了大数据分析与挖掘的基本概念、行业应用等;第2 章介绍了 Python 的安装、编程基础以及常用的数据分析工具;第 3 章介绍了数据的类型、质量和相似度与相异度;第 4 章介绍了数据探索的常用方法,包括质量分析、描述性统计分析、可视化分析和多维数据分析;第 5 章介绍了数据预处理的常用方法,包括数据清洗、数据集成、数据归约和数据变换与离散化;第 6 章介绍了回归与分类的方法,包括多元线性回归、逻辑回归、决策树分类、朴素贝叶斯分类等;第 7 章介绍了聚类的方法,包括 K-Means 算法、DBSCAN 算法等;第 8 章介绍了关联规则,包括 Apriori 算法和 FP-Growth 算法等;第 9 章介绍了时间序列,包括平稳时间序列分析和非平稳时间序列分析等;第 10 章介绍了离群点检测,包括基于统计学、邻近性、聚类、分类的离群点检测方法;第 11 章介绍了大数据分析与挖掘的前沿知识。__eol__本书大部分章节包含真实案例和课后习题,通过练习和操作实践,帮助读者巩固所学的内容。__eol__本书可作为高校数据科学与大数据技术或人工智能相关专业教材,也可作为数据挖掘爱好者的自学用书。
目录
目 录__eol__第1章 绪论 001__eol__1.1 大数据分析与挖掘的基本概念 002__eol__1.2 大数据分析与挖掘的行业应用 002__eol__1.3 大数据分析与挖掘的基本任务 004__eol__1.4 大数据分析与挖掘的建模过程 004__eol__1.4.1 明确任务 005__eol__1.4.2 数据采集 005__eol__1.4.3 数据探索 006__eol__1.4.4 数据预处理 006__eol__1.4.5 挖掘建模 007__eol__1.4.6 模型评价 007__eol__1.5 大数据分析与挖掘的建模工具 007__eol__小结 009__eol__习题 009__eol__第2章 Python简介 011__eol__2.1 Python安装 012__eol__2.2 Python编程基础 015__eol__2.2.1 基本命令 016__eol__2.2.2 数据类型 019__eol__2.2.3 运算符 023__eol__2.2.4 函数 027__eol__2.3 Python数据分析工具 029__eol__小结 033__eol__习题 034__eol__第3章 数据 036__eol__3.1 数据类型 037__eol__3.1.1 数据集的类型 037__eol__3.1.2 属性的定义 039__eol__3.1.3 属性的分类 040__eol__3.2 数据质量 041__eol__3.3 数据的相似度与相异度度量 042__eol__3.3.1 属性之间的相似度与相异度 042__eol__3.3.2 数据对象之间的相异度 045__eol__3.3.3 数据对象之间的相似度 049__eol__3.3.4 度量方法的选取 054__eol__小结 055__eol__习题 055__eol__第4章 数据探索 058__eol__4.1 数据质量分析 059__eol__4.1.1 缺失值分析 059__eol__4.1.2 异常值分析 060__eol__4.1.3 一致性分析 063__eol__4.2 数据描述性统计分析 064__eol__4.2.1 集中趋势度量 065__eol__4.2.2 离散程度度量 066__eol__4.2.3 多元数据统计分析 069__eol__4.3 数据可视化分析 070__eol__4.3.1 可视化技术 070__eol__4.3.2 高维数据可视化 076__eol__4.4 多维数据分析 082__eol__4.4.1 多维数组 082__eol__4.4.2 数据立方体 083__eol__4.4.3 切片与切块 084__eol__4.4.4 上卷与下钻 085__eol__4.5 Python数据探索案例分析 086__eol__4.5.1 公共自行车租赁系统数据集 086__eol__4.5.2 数据探索分析 087__eol__小结 092__eol__习题 092__eol__第5章 数据预处理 095__eol__5.1 数据清洗 096__eol__5.1.1 缺失值处理 096__eol__5.1.2 异常值处理 098__eol__5.2 数据集成 100__eol__5.2.1 实体识别 100__eol__5.2.2 数据合并 101__eol__5.2.3 冗余属性识别 104__eol__5.3 数据归约 106__eol__5.3.1 抽样 106__eol__5.3.2 采样 106__eol__5.3.3 属性子集选择 108__eol__5.4 数据变换与离散化 110__eol__5.4.1 数据规范化 110__eol__5.4.2 简单函数变换 112__eol__5.4.3 属性构造 113__eol__5.4.4 连续属性离散化 114__eol__5.5 Python数据预处理案例分析 116__eol__5.5.1 案例背景 116__eol__5.5.2 城市春运出行数据说明 116__eol__5.5.3 数据预处理 117__eol__小结 125__eol__习题 126__eol__第6章 回归与分类 128__eol__6.1 基本概念 130__eol__6.1.1 回归概述 131__eol__6.1.2 分类概述 131__eol__6.2 回归分析 131__eol__6.2.1 一元线性回归 132__eol__6.2.2 多元线性回归 134__eol__6.2.3 多项式回归 142__eol__6.2.4 逻辑回归 145__eol__6.3 决策树分类 148__eol__6.3.1 决策树基本原理 148__eol__6.3.2 建立决策树 149__eol__6.3.3 决策树算法 151__eol__6.3.4 随机森林算法 155__eol__6.4 朴素贝叶斯分类 157__eol__6.4.1 朴素贝叶斯模型基本原理 157__eol__6.4.2 朴素贝叶斯模型代码实现 160__eol__6.5 K最近邻分类 161__eol__6.5.1 K最近邻分类基本原理 162__eol__6.5.2 K最近邻分类代码实现 163__eol__6.6 支持向量机 164__eol__6.6.1 支持向量机基本原理 164__eol__6.6.2 数据线性可分的情况 165__eol__6.6.3 数据线性不可分的情况 166__eol__6.7 神经网络 169__eol__6.7.1 神经网络基本概念 169__eol__6.7.2 BP神经网络算法 170__eol__6.8 回归与分类的评估方法 174__eol__6.8.1 回归的评估方法 174__eol__6.8.2 分类的评估方法 175__eol__6.8.3 提高类不平衡数据的分类准确率 178__eol__6.9 集成学习技术 178__eol__6.9.1 集成学习方法概述 178__eol__6.9.2 Bagging 179__eol__6.9.3 Stacking 179__eol__6.9.4 Boosting 180__eol__6.10 Python回归与分类案例分析 182__eol__6.10.1 回归案例分析 182__eol__6.10.2 分类案例分析 185__eol__小结 188__eol__习题 189__eol__第7章 聚类 193__eol__7.1 基本概念 194__eol__7.2 划分聚类 194__eol__7.2.1 K-Means算法 195__eol__7.2.2 K-中心点算法 200__eol__7.3 层次聚类 206__eol__7.3.1 凝聚的层次聚类 207__eol__7.3.2 分裂的层次聚类 207__eol__7.3.3 簇间距离度量方法 208__eol__7.3.4 不同距离度量的层次聚类 210__eol__7.4 基于密度的聚类方法 214__eol__7.4.1 基于中心方法的密度定义 215__eol__7.4.2 DBSCAN算法 216__eol__7.5 概率模型聚类 222__eol__7.5.1 模糊簇 222__eol__7.5.2 概率模型聚类步骤 223__eol__7.5.3 期望最大化算法 223__eol__7.6 聚类评估 226__eol__7.6.1 估计聚类趋势 226__eol__7.6.2 确定正确的簇的个数 228__eol__7.6.3 聚类质量评估 229__eol__7.7 Python聚类案例分析 232__eol__7.7.1 数据说明 232__eol__7.7.2 数据预处理 233__eol__7.7.3 构建聚类模型 236__eol__小结 239__eol__习题 239__eol__第8章 关联规则 243__eol__8.1 基本概念 244__eol__8.1.1 基本元素的概念 244__eol__8.1.2 闭频繁项集和极大频繁项集 249__eol__8.2 Apriori算法 252__eol__8.2.1 Apriori算法简介 252__eol__8.2.2 改进的Apriori算法 256__eol__8.3 FP-Growth算法 257__eol__8.3.1 FP-Growth算法的实现过程 257__eol__8.3.2 使用FP-Growth算法实现新闻网站点击数据频繁项集挖掘 261__eol__8.4 关联规则评估方法 262__eol__8.4.1 关联规则兴趣度评估 262__eol__8.4.2 关联规则相关度评估 264__eol__8.4.3 其他评估度量方法 264__eol__8.5 多维关联规则挖掘 265__eol__8.6 多层关联规则挖掘 266__eol__8.7 Python关联规则案例分析 268__eol__8.7.1 基于Apriori算法实现电影观看规则挖掘 268__eol__8.7.2 基于FP-Growth算法实现商品购