- 电子工业出版社
- 9787121435737
- 1-2
- 466027
- 48253614-1
- 平塑
- 16开
- 2023-03
- 538
- 336
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
目录
第1章 数据预处理概述 1__eol__1.1 数据预处理的背景与目的 1__eol__1.1.1 数据预处理的背景:数据质量 1__eol__1.1.2 数据预处理的目的 3__eol__1.2 数据预处理的流程 3__eol__1.2.1 数据清洗 3__eol__1.2.2 数据集成 5__eol__1.2.3 数据变换 6__eol__1.2.4 数据归约 9__eol__1.2.5 数据预处理的注意事项 14__eol__1.3 数据预处理的工具 14__eol__本章习题 15__eol__第2章 Kettle工具的初步使用 16__eol__2.1 Kettle的安装 16__eol__2.1.1 Java的安装 16__eol__2.1.2 Kettle的下载安装与Spoon的启动 20__eol__2.2 Kettle的使用 21__eol__2.2.1 转换的基本概念 21__eol__2.2.2 第一个转换案例 23__eol__本章习题 42__eol__第3章 数据的导入与导出 43__eol__3.1 基于文件的数据导入与导出 43__eol__3.1.1 文本文件的导入与导出 43__eol__3.1.2 文本文件的导入与导出案例 45__eol__3.1.3 Excel文件的导入与导出 51__eol__3.1.4 Excel文件的导入与导出案例 51__eol__3.1.5 XML文件的导入与导出 59__eol__3.1.6 XML文件的导入与导出案例 59__eol__3.1.7 JSON文件的导入与导出 64__eol__3.1.8 JSON文件的导入与导出案例 65__eol__3.2 基于数据库的数据导入与导出 69__eol__3.2.1 关系数据库的数据导入与导出 69__eol__3.2.2 MySQL数据库的数据导入与导出案例 71__eol__3.3 基于Web的数据导入与导出 78__eol__3.3.1 HTML数据的导入与导出 78__eol__3.3.2 HTML数据的导入与导出案例 79__eol__3.3.3 基于HTTP GET请求的导入与导出 83__eol__3.3.4 基于HTTP GET请求的导入与导出案例 83__eol__3.4 基于CDC变更数据的导入与导出 86__eol__3.4.1 基于源数据的CDC 86__eol__3.4.2 基于源数据的CDC案例 87__eol__3.4.3 基于触发器的CDC 98__eol__3.4.4 基于触发器的CDC案例 99__eol__3.4.5 基于快照的CDC 109__eol__3.4.6 基于快照的CDC案例 109__eol__3.4.7 基于日志的CDC 113__eol__3.4.8 基于日志的CDC案例 113__eol__本章习题 116__eol__第4章 数据清洗 117__eol__4.1 数据清洗概述 117__eol__4.1.1 Kettle常用的数据清洗步骤 117__eol__4.1.2 字符串清理 119__eol__4.1.3 字段清理 123__eol__4.1.4 使用参照表清理数据 130__eol__4.1.5 数据校验 136__eol__4.2 数据排重 141__eol__4.2.1 如何识别重复数据 141__eol__4.2.2 去除完全重复数据 142__eol__4.2.3 去除不完全重复数据 144__eol__4.3 使用脚本组件进行数据清洗 147__eol__4.3.1 使用JavaScript代码组件清理数据 147__eol__4.3.2 使用正则表达式组件清理数据 149__eol__4.3.3 使用其他脚本组件清理数据 152__eol__本章习题 156__eol__第5章 数据标注 157__eol__5.1 数据标注简介 157__eol__5.1.1 数据标注是什么 157__eol__5.1.2 数据标注分类简介 158__eol__5.1.3 数据标注流程简介 159__eol__5.2 数据标注分类 160__eol__5.2.1 图像标注 161__eol__5.2.2 文本标注 164__eol__5.2.3 语音标注 166__eol__5.3 数据标注质量检验 167__eol__5.3.1 数据标注质量的影响 167__eol__5.3.2 数据标注的质量标准 169__eol__5.3.3 数据标注质量检验方法 172__eol__5.4 图像数据标注实战 175__eol__5.4.1 车辆车牌标注 175__eol__5.4.2 遥感影像标注 180__eol__5.4.3 医疗影像标注 184__eol__5.4.4 行人数据标注 188__eol__5.4.5 基于行人标注数据集的行人检测 192__eol__5.5 文本标注实战 198__eol__本章习题 207__eol__第6章 Kettle作业设计 208__eol__6.1 作业的概念及组成 209__eol__6.1.1 作业项 209__eol__6.1.2 跳 210__eol__6.1.3 注释 210__eol__6.2 作业的执行方式 210__eol__6.2.1 回溯 210__eol__6.2.2 多路径和回溯 211__eol__6.2.3 并行执行 211__eol__6.3 作业的创建及常用作业项 212__eol__6.3.1 创建作业 213__eol__6.3.2 “START”作业项 213__eol__6.3.3 “作业”作业项 213__eol__6.3.4 “转换”作业项 215__eol__6.4 变量 216__eol__6.4.1 定义变量 216__eol__6.4.2 使用变量 218__eol__6.5 监控 218__eol__6.5.1 日志 219__eol__6.5.2 邮件通知 220__eol__6.6 命令行启动 221__eol__6.7 作业实验 223__eol__本章习题 252__eol__第7章 基于Kettle构建数据仓库 253__eol__7.1 数据仓库的介绍 253__eol__7.1.1 数据仓库的起因 253__eol__7.1.2 数据仓库的发展 254__eol__7.1.3 数据仓库的定义 255__eol__7.1.4 数据仓库的特点 255__eol__7.1.5 数据仓库的结构 255__eol__7.1.6 数据仓库建模 256__eol__7.1.7 数据仓库与ETL的关系 257__eol__7.2 构建维度表 258__eol__7.2.1 管理各种键 258__eol__7.2.2 维度表的加载 262__eol__7.2.3 缓慢变化维度 263__eol__7.3 构建事实表 268__eol__7.3.1 批量加载 268__eol__7.3.2 查找维度 271__eol__7.3.3 事实表的处理 271__eol__本章习题 280__eol__第8章 基于Python的数据导入与导出 281__eol__8.1 Pandas 281__eol__8.1.1 Series 282__eol__8.1.2 DataFrame 284__eol__8.2 文本文件的导入与导出 286__eol__8.2.1 导入CSV文件 286__eol__8.2.2 导出CSV文件 290__eol__8.2.3 JSON格式数据的导入与导出 291__eol__8.3 Excel文件的导入与导出 292__eol__8.4 数据库的导入与导出 292__eol__8.4.1 关系数据库的导入与导出 293__eol__8.4.2 非关系数据库的导入与导出 294__eol__本章习题 297__eol__第9章 基于Python的数据整理 298__eol__9.1 合并多个数据集 298__eol__9.1.1 使用键进行DataFrame合并 298__eol__9.1.2 使用index进行DataFrame合并 302__eol__9.1.3 沿着横轴或纵轴串接 303__eol__9.2 数据重塑 305__eol__9.2.1 多级索引数据的重塑 305__eol__9.2.2 应用pivot方法重塑数据 307__eol__9.3 数据转换 310__eol__9.3.1 移除重复数据 310__eol__9.3.2 利用函数或映射进行数据转换 312__eol__9.3.3 值转换 312__eol__9.3.4 重命名轴索引 313__eol__9.3.5 离散化和面元划分 314__eol__9.3.6 检测或过滤异常值 317__eol__9.3.7 排列和随机采样 318__eol__9.3.8 计算指标/哑变量 319__eol__本章习题 322__eol____eol__