注册 登录 进入教材巡展
#

出版时间:2022-01

出版社:清华大学出版社

以下为《数据挖掘原理(第4版)》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302596493
  • 1版
  • 439644
  • 60237554-5
  • 16开
  • 2022-01
  • 477
  • 工学
  • 计算机科学与技术
  • 计算机
  • 高职
内容简介
《数据挖掘原理(第4版)》解释、探索了数据挖掘的主要技术,可以从数据中自动提取隐式和潜在有用的信息。数据挖掘越来越多地用于商业、科学和其他应用领域,它侧重于分类、关联规则挖掘和聚类。
  书中对每个主题都进行了清晰的解释,重点是算法而不是数学公式,并通过详细的有效示例加以说明。本书是为没有强数学或统计学背景的读者写的,并详细解释了使用的所有公式。
  《数据挖掘原理(第4版)》适合作为本科生或研究生层次的教材,适用专业包括计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学。
  为了帮助读者自学,本书旨在帮助普通读者理解什么是“黑盒”,这样他们就可以有差别地使用商业数据挖掘包,高级读者或学术研究者可以对未来该领域的技术进步做出贡献。
  书中每一章都有实践练习,让读者检查自己的进度。附录还包括所使用的技术术语的完整术语表。
  数据挖掘原理包括对流数据分类算法的介绍,包括平稳数据(底层模型是固定的)和依赖时间的数据(底层模型不时变化)——这种现象称为概念漂移。
  《数据挖掘原理(第4版)》提供了前馈神经网络与反向传播的详细描述,并显示它如何可以用于分类。
目录
目 录


第1章 数据挖掘简介 1
1.1 数据爆炸 1
1.2 知识发现 2
1.3 数据挖掘的应用 3
1.4 标签数据和无标签数据 4
1.5 监督学习:分类 4
1.6 监督学习:数值预测 6
1.7 无监督学习:关联规则 6
1.8 无监督学习:聚类 7
第2章 用于挖掘的数据 9
2.1 标准制定 9
2.2 变量的类型 10
2.3 数据准备 11
2.4 缺失值 13
2.4.1 丢弃实例 14
2.4.2 用最频繁值/平均值替换 14
2.5 减少属性个数 14
2.6 数据集的UCI存储库 15
2.7 本章小结 16
2.8 自我评估练习 16
第3章 分类简介:朴素贝叶斯和最近邻算法 17
3.1 什么是分类 17
3.2 朴素贝叶斯分类器 18
3.3 最近邻分类 24
3.3.1 距离测量 26
3.3.2 标准化 28
3.3.3 处理分类属性 29
3.4 急切式和懒惰式学习 30
3.5 本章小结 30
3.6 自我评估练习 30
第4章 使用决策树进行分类 33
4.1 决策规则和决策树 33
4.1.1 决策树:高尔夫示例 33
4.1.2 术语 35
4.1.3 degrees数据集 35
4.2 TDIDT算法 38
4.3 推理的类型 40
4.4 本章小结 41
4.5 自我评估练习 41
第5章 决策树归纳:使用熵进行属性选择 43
5.1 属性选择:一个实验 43
5.2 替代决策树 44
5.2.1 足球/无板篮球示例 44
5.2.2 匿名数据集 46
5.3 选择要分裂的属性:使用熵 48
5.3.1 lens24数据集 48
5.3.2 熵 49
5.3.3 使用熵进行属性选择 50
5.3.4 信息增益最大化 52
5.4 本章小结 53
5.5 自我评估练习 53
第6章 决策树归纳:使用频率表进行属性选择 55
6.1 实践中的熵计算 55
6.1.1 等效性证明 57
6.1.2 关于零值的说明 58
6.2 其他属性选择标准:多样性基尼指数 58
6.3 χ2属性选择准则 59
6.4 归纳偏好 62
6.5 使用增益比进行属性选择 63
6.5.1 分裂信息的属性 64
6.5.2 总结 65
6.6 不同属性选择标准生成的规则数 65
6.7 缺失分支 66
6.8 本章小结 67
6.9 自我评估练习 67
第7章 估计分类器的预测精度 69
7.1 简介 69
7.2 方法1:将数据划分为训练集和测试集 70
7.2.1 标准误差 70
7.2.2 重复训练和测试 71
7.3 方法2:k折交叉验证 72
7.4 方法3:N折交叉验证 72
7.5 实验结果I 73
7.6 实验结果II:包含缺失值的数据集 75
7.6.1 策略1:丢弃实例 75
7.6.2 策略2:用最频繁值/平均值替换 76
7.6.3 类别缺失 77
7.7 混淆矩阵 77
7.8 本章小结 79
7.9 自我评估练习 79
第8章 连续属性 81
8.1 简介 81
8.2 局部与全局离散化 83
8.3 向TDIDT添加局部离散化 83
8.3.1 计算一组伪属性的信息增益 84
8.3.2 计算效率 88
8.4 使用ChiMerge算法进行全局离散化 90
8.4.1 计算期望值和χ2 92
8.4.2 查找阈值 96
8.4.3 设置minIntervals和maxIntervals 97
8.4.4 ChiMerge算法:总结 98
8.4.5 对ChiMerge算法的评述 98
8.5 比较树归纳法的全局离散化和局部离散化 99
8.6 本章小结 100
8.7 自我评估练习 100
第9章 避免决策树的过度拟合 101
9.1 处理训练集中的冲突 101
9.2 关于过度拟合数据的更多规则 105
9.3 预剪枝决策树 106
9.4 后剪枝决策树 108
9.5 本章小结 113
9.6 自我评估练习 113
第10章 关于熵的更多信息 115
10.1 简介 115
10.2 使用位的编码信息 118
10.3 区分M个值(M不是2的幂) 119
10.4 对“非等可能”的值进行编码 121
10.5 训练集的熵 123
10.6 信息增益必须为正数或0 124
10.7 使用信息增益简化分类任务的特征 125
10.7.1 示例1:genetics数据集 126
10.7.2 示例2:bcst96数据集 128
10.8 本章小结 130
10.9 自我评估练习 130
第11章 归纳分类的模块化规则 131
11.1 规则后剪枝 131
11.2 冲突解决 132
11.3 决策树的问题 135
11.4 Prism算法 137
11.4.1 基本Prism算法的变化 143
11.4.2 将Prism算法与TDIDT算法进行比较 144
11.5 本章小结 145
11.6 自我评估练习 145

第12章 度量分类器的性能 147
12.1 真假正例和真假负例 148
12.2 性能度量 149
12.3 真假正例率与预测精度 152
12.4 ROC图 153
12.5 ROC曲线 155
12.6 寻找最佳分类器 155
12.7 本章小结 157
12.8 自我评估练习 157
第13章 处理大量数据 159
13.1 简介 159
13.2 将数据分发到多个处理器 161
13.3 案例研究:PMCRI 163
13.4 评估分布式系统PMCRI的有效性 165
13.5 逐步修改分类器 169
13.6 本章小结 173
13.7 自我评估练习 173
第14章 集成分类 175
14.1 简介 175
14.2 估计分类器的性能 177
14.3 为每个分类器选择不同的训练集 178
14.4 为每个分类器选择一组不同的属性 179
14.5 组合分类:替代投票系统 179
14.6 并行集成分类器 183
14.7 本章小结 183
14.8 自我评估练习 183

第15章 比较分类器 185
15.1 简介 185
15.2 配对t检验 186
15.3 为比较评估选择数据集 191
15.4 抽样 193
15.5 “无显著差异”的结果有多糟糕 195
15.6 本章小结 196
15.7 自我评估练习 196
第16章 关联规则挖掘I 199
16.1 简介 199
16.2 规则兴趣度的衡量标准 200
16.2.1 Piatetsky-Shapiro标准和RI度量 202
16.2.2 规则兴趣度度量应用于chess数据集 204
16.2.3 使用规则兴趣度度量解决冲突 206
16.3 关联规则挖掘任务 206
16.4 找到最佳N条规则 207
16.4.1 J-Measure:度量规则的信息内容 207
16.4.2 搜索策略 209
16.5 本章小结 211
16.6 自我评估练习 211
第17章 关联规则挖掘II 213
17.1 简介 213
17.2 事务和项目集 213
17.3 对项目集的支持 215
17.4 关联规则 215
17.5 生成关联规则 217
17.6 Apriori 218
17.7 生成支持的项目集:一个示例 221
17.8 为支持项目集生成规则 223
17.9 规则兴趣度度量:提升度和杠杆率 224
17.10 本章小结 226
17.11 自我评估练习 227
第18章 关联规则挖掘III:频繁模式树 229
18.1 简介:FP-growth 229
18.2 构造FP-tree 231
18.2.1 预处理事务数据库 231
18.2.2 初始化 233
18.2.3 处理事务1:f, c, a, m, p 234
18.2.4 处理事务2:f, c, a, b, m 235
18.2.5 处理事务3:f, b 239
18.2.6 处理事务4:c, b, p 240
18.2.7 处理事务5:f, c, a,m, p 240
18.3 从FP-tree中查找频繁项目集 242
18.3.1 以项目p结尾的项目集 244
18.3.2 以项目m结尾的项目集 252
18.4 本章小结 258
18.5 自我评估练习 258
第19章 聚类 259
19.1 简介 259
19.2 k-means聚类 261
19.2.1 示例 262
19.2.2 找到最佳簇集 266
19.3 凝聚式层次聚类 267
19.3.1 记录簇间距离 269
19.3.2 终止聚类过程 272
19.4 本章小结 272
19.5 自我评估练习 272
第20章 文本挖掘 273
20.1 多重分类 273
20.2 表示数据挖掘的文本文档 274
20.3 停用词和词干 275
20.4 使用信息增益减少特征 276
20.5 表示文本文档:构建向量空间模型 276
20.6 规范权重 277
20.7 测量两个向量之间的距离 278
20.8 度量文本分类器的性能 279
20.9 超文本分类 280
20.9.1 对网页进行分类 280
20.9.2 超文本分类与文本
分类 281
20.10 本章小结 284
20.11 自我评估练习 284
第21章 分类流数据 285
21.1 简介 285
21.2 构建H-Tree:更新数组 287
21.2.1 currentAtts数组 287
21.2.2 splitAtt数组 288
21.2.3 将记录排序到适当的叶节点 288
21.2.4 hitcount数组 289
21.2.5 classtotals数组 289
21.2.6 acvCounts阵列 289
21.2.7 branch数组 290
21.3 构建H-Tree:详细示例 291
21.3.1 步骤1:初始化根节点0 291
21.3.2 步骤2:开始读取记录 291
21.3.3 步骤3:考虑在节点0处分裂 292
21.3.4 步骤4:在根节点上拆分并初始化新的叶节点 293
21.3.5 步骤5:处理下一组记录 295
21.3.6 步骤6:考虑在节点2处分裂 296
21.3.7 步骤7:处理下一组记录 296
21.3.8 H-Tree算法概述 297
21.4 分裂属性:使用信息增益 299
21.5 分裂属性:使用Hoeffding边界 301
21.6 H-Tree算法:最终版本 304
21.7 使用不断进化的H-Tree进行预测 306
21.8 实验:H-Tree与TDIDT 308
21.8.1 lens24数据集 308
21.8.2 vote数据集 310
21.9 本章小结 311
21.10 自我评估练习 311

第22章 分类流数据II:时间相关数据 313
22.1 平稳数据与时间相关数据 313
22.2 H-Tree算法总结 315
22.2.1 currentAtts数组 316
22.2.2 splitAtt数组 316
22.2.3 hitcount数组 316
22.2.4 classtotals数组 316
22.2.5 acvCounts数组 317
22.2.6 branch数组 317
22.2.7 H-Tree算法的伪代码 317
22.3 从H-Tree到CDH-Tree:概述 319
22.4 从H-Tree转换到CDH-Tree:递增计数 319
22.5 滑动窗口方法 320
22.6 在节点处重新分裂 324
22.7 识别可疑节点 324
22.8 创建备用节点 326
22.9 成长/遗忘备用节点及其后代 329
22.10 用备用节点替换一个内部节点 331
22.11 实验:跟踪概念漂移 337
22.11.1 lens24数据:替代
22.11.2 引入概念漂移 339
22.11.3 使用交替lens24数据的实验 340
22.11.4 关于实验的评论 347
22.12 本章小结 347
22.13 自我评估练习 347
第23章 神经网络概论 349
23.1 简介 349
23.2 神经网络示例1 351
23.3 神经网络示例2 354
23.3.1 前向传播输入节点的值 356
23.3.2 前向传播:公式汇总 361
23.4 反向传播 361
23.4.1 随机梯度下降 362
23.4.2 求梯度 363
23.4.3 从输出层倒推到隐藏层 365
23.4.4 从隐藏层倒推到输入层 367
23.4.5 更新权值 370
23.5 处理多实例训练集 372
23.6 使用神经网络进行分类:iris数据集 372
23.7 使用神经网络进行分类:seeds数据集 376
23.8 神经网络:注意事项 379
23.9 本章小结 380
23.10 自我评估练习 380
附录A 基本数学知识 381
附录B 数据集 395
附录C 更多信息来源 411
附录D 词汇表和符号 413
附录E 自我评估练习题答案 433
Baidu
map