注册 登录 进入教材巡展
#
  • #

出版时间:2018-12

出版社:中国铁道出版社

以下为《数据挖掘》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 中国铁道出版社
  • 9787113251673
  • 1-1
  • 226025
  • 61239247-2
  • 平装
  • 16开
  • 2018-12
  • 312
  • 188
  • 工学
  • 计算机科学与技术
  • TP274
  • 通用
内容简介
本书着力于介绍数据挖掘基础知识、基本原理、常用算法,主要内容包括数据挖掘概述、
数据的描述与可视化、数据的采集和预处理、数据的归约、关联规则挖掘、分类与预测、非
线性预测模型、聚类分析、深度学习简介、使用Weka进行数据挖掘。本书通俗易懂,注重基
础知识、基本原理和基本方法,注重启发和引申,以培养学生独立思考和独立发现的能力。
本书适合作为数据科学与大数据、信息管理、统计等专业的本科层次基础课教材,也可
作为相关专业研究生层次的参考用书。
目录
第 1 章 数据挖掘概述 ...................... 1
1.1 什么是数据挖掘 ...................... 1
1.1.1 数据、信息和知识 ........ 1
1.1.2 数据挖掘的定义 ............ 2
1.1.3 数据挖掘的发展简史 .... 3
1.2 数据挖掘的基本流程
及方法概述 ............................. 4
1.2.1 数据挖掘的基本流程 .... 4
1.2.2 数据挖掘的任务
和方法概述 ................... 6
1.3 数据挖掘的应用 ...................... 9
1.3.1 数据挖掘在商务
领域的应用 ................... 9
1.3.2 数据挖掘在医疗
和医学领域的应用 ...... 10
1.3.3 数据挖掘在银行
和保险领域的应用 ...... 10
1.3.4 数据挖掘在社交
媒体领域的应用 ......... 11
习题 ............................................... 11
第 2 章 数据的描述与可视化.......... 12
2.1 概述 ...................................... 12
2.2 数据对象与属性类型............. 12
2.2.1 什么是属性 ................. 12
2.2.2 标称属性 ..................... 12
2.2.3 二元属性 ..................... 13
2.2.4 序数属性 ..................... 13
2.2.5 数值属性 ..................... 14
2.2.6 离散属性与连续
属性 ............................ 14
2.3 数据的基本统计描述 ............ 15
2.3.1 中心趋势度量 ............. 15
2.3.2 度量数据散布:极差、
四分位数、方差、
标准差和四分位数
极差 ............................ 17
2.3.3 数据基本统计的
图形描述 .................... 19
2.4 数据可视化 ........................... 23
2.4.1 基于像素的可视化 ...... 23
2.4.2 几何投影可视化.......... 25
2.4.3 基于图符的可视化 ...... 27
2.4.4 层次可视化 ................. 28
2.4.5 可视化复杂对象和
关系 ............................ 30
2.5 数据相似性和相异性度量 ..... 32
2.5.1 数据矩阵与相异性
矩阵 ............................ 32
2.5.2 标称属性的邻近性
度量 ............................ 33
2.5.3 二元属性的邻近性
度量 ............................ 34
2.5.4 数值属性的相异性:
闵可夫斯基距离 ......... 36
2.5.5 序数属性的邻近性
度量 ............................ 37
2.5.6 混合类型属性的
相异性 ........................ 38
2.5.7 余弦相似性 ................. 40
习题............................................... 40
第 3 章 数据的采集和预处理 .......... 42
3.1 概述 ...................................... 42
3.1.1 大数据采集的特点 ...... 42数据挖掘
2
3.1.2 大数据采集的方法 ...... 43
3.2 数据预处理的目的和任务 ..... 44
3.3 数据清洗 ............................... 45
3.3.1 缺失值清洗 ................. 46
3.3.2 异常值清洗 ................. 48
3.3.3 格式内容清洗 ............. 50
3.3.4 逻辑错误清洗 ............. 50
3.3.5 非需求数据清洗 .......... 51
3.3.6 关联性验证 ................. 51
3.4 数据集成 ............................... 52
3.5 数据变换 ............................... 53
习题 ............................................... 56
第 4 章 数据的归约........................ 57
4.1 概述 ...................................... 57
4.2 属性的选择与数值归约 ......... 57
4.2.1 属性的评估准则 .......... 58
4.2.2 属性子集选择方法 ...... 59
4.2.3 数值归约 ..................... 60
4.3 线性回归 ............................... 61
4.4 主成分分析 ........................... 63
习题 ............................................... 66
第 5 章 关联规则挖掘 .................... 67
5.1 概述 ...................................... 67
5.2 关联规则的分类 .................... 68
5.3 关联规则的研究步骤............. 68
5.3.1 关联规则挖掘算法的
分类 ............................ 69
5.3.2 各种算法类型的
对比 ............................ 70
5.4 Apriori 算法分析 ................... 70
5.5 实例分析 ............................... 70
5.6 关联规则的推广(GRI) ...... 72
5.7 关联规则的深入挖掘............. 74
习题 ............................................... 75
第 6 章 分类与预测........................ 76
6.1 概述 ...................................... 76
6.1.1 基本概念 ..................... 76
6.1.2 数据分类的
一般方法 .................... 77
6.2 决策树模型 ........................... 77
6.2.1 决策树的工作原理 ...... 78
6.2.2 决策树的适用问题 ...... 78
6.2.3 ID3 算法 ..................... 79
6.2.4 决策树的结点划分 ...... 80
6.3 贝叶斯分类模型 .................... 81
6.3.1 贝叶斯定理 ................. 81
6.3.2 贝叶斯模型的特点 ...... 82
6.4 线性判别模型 ....................... 82
6.5 逻辑回归模型 ....................... 83
6.5.1 逻辑回归模型
概述 ............................ 83
6.5.2 逻辑回归模型的
基本概念 .................... 83
6.6 模型的评估与选择 ................ 85
6.6.1 评估分类器性能的
度量 ............................ 85
6.6.2 保持方法和随机
二次抽样 .................... 90
6.6.3 交叉验证 ..................... 90
6.6.4 自助法 ........................ 91
6.6.5 使用统计显著性检验
选择模型 .................... 91
习题............................................... 93
第 7 章 非线性预测模型 ................. 94
7.1 概述 ...................................... 94
7.2 支持向量机 ........................... 94
7.2.1 支持向量机分类
原理 ............................ 95
7.2.2 非线性支持向量机 ...... 99
7.2.3 支持向量机回归
预测 .......................... 102
7.2.4 基于支持向量机的
预测分析 .................. 106
7.3 神经网络 ............................. 108
7.3.1 人工神经网络模型
与分类 ...................... 108
7.3.2 BP 神经网络 ............. 112目 录
3
7.3.3 RBF 神经网络 ........... 117
7.3.4 基于神经网络的
预测分析................... 121
习题 ............................................. 124
第 8 章 聚类分析 ......................... 125
8.1 概述 .................................... 125
8.2 k-均值聚类 ......................... 126
8.3 k-中心聚类 ......................... 129
8.4 聚类评估 ............................. 130
8.4.1 外部法 ...................... 130
8.4.2 内部法 ...................... 131
8.4.3 可视化方法 ............... 131
习题 ............................................. 131
第 9 章 深度学习简介 .................. 133
9.1 概述 .................................... 133
9.2 来自人类视觉机理的启发 ... 134
9.3 深层神经网络...................... 136
9.4 卷积神经网络...................... 137
9.4.1 卷积和池化 ............... 138
9.4.2 CNN 网络框架 .......... 141
9.4.3 CNN 的应用 .............. 142
9.5 RNN 循环神经网络 ............. 144
9.5.1 RNN 的结构 .............. 145
9.5.2 RNN 的缺陷 .............. 146
9.5.3 RNN 的应用 .............. 147
9.6 生成对抗网络 ..................... 147
9.6.1 GAN 的原理与架构 .. 148
9.6.2 GAN 的应用 .............. 150
习题............................................. 151
第 10 章 使用 Weka 进行
数据挖掘 ....................... 153
10.1 概述 .................................. 153
10.2 Weka 关联数据挖掘的
基本操作 ........................... 153
10.3 数据格式 ........................... 158
10.4 关联规则挖掘 ................... 160
10.5 分类与回归 ....................... 163
10.6 聚类分析 ........................... 166
习题............................................. 167
附录 A 拉格朗日优化法 ............... 169
参考文献........................................ 177
Baidu
map