Python数据分析 / “十四五”高等学校新工科计算机类专业系列教材
¥69.80定价
作者: 刘秋菊,王国政,黄继海
出版时间:2023-08
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113304270
- 1版
- 502227
- 48256824-3
- 16开
- 2023-08
- 计算机及相关专业
- 本科
作者简介
内容简介
本书按照“‘十四五’高等学校新工科计算机类专业系列教材”总体编写规划的要求而编写,从Python数据分析的基础知识入手,系统地论述数据分析的流程和方法,结合大量的数据分析案例,内容循序渐进,通过完整的实例系统、全面地阐释了 Python 数据分析的相关知识。
本书共 9 章,主要包括数据分析与 Python 基础、NumPy 数值计算、Pandas 统计分析、数据载入与预处理、数据分析可视化、数据分析方法、时间序列数据分析、文本数据分析、图像数据分析等内容,并且按照数据分析的流程对大量实例进行分析。
本书适合作为高等院校智能科学与技术、数据科学与大数据、物联网工程、软件工程和计算机科学与技术等专业的教材,也可作为 Python 数据分析爱好者的参考书,还可作为各类人工智能技术培训用书。
本书共 9 章,主要包括数据分析与 Python 基础、NumPy 数值计算、Pandas 统计分析、数据载入与预处理、数据分析可视化、数据分析方法、时间序列数据分析、文本数据分析、图像数据分析等内容,并且按照数据分析的流程对大量实例进行分析。
本书适合作为高等院校智能科学与技术、数据科学与大数据、物联网工程、软件工程和计算机科学与技术等专业的教材,也可作为 Python 数据分析爱好者的参考书,还可作为各类人工智能技术培训用书。
目录
第一部分 Python 数据分析基础
第 1 章 数据分析与 Python 基础 .2
1.1 数据分析基础 2
1.1.1 什么是数据分析 .2
1.1.2 数据分析流程 .5
1.1.3 数据分析的发展 .6
1.2 常用 Python 数据分析环境搭建 .6
1.2.1 在 Windows 下安装 Anaconda .6
1.2.2 Jupyter Notebook 的安装与启动 12
1.2.3 Jupyter Notebook 的基本使用 12
1.3 Python 编程基础 14
1.3.1 数据类型及其转换 .14
1.3.2 函数 .21
1.4 案例分析与实训 22
1.4.1 Python 做数学问题 .22
1.4.2 Python 做文字处理 .24
1.4.3 Python 做逻辑流程控制 .25
1.4.4 Python 做基本数据统计 .26
习题 .28
第 2 章 NumPy 数值计算 31
2.1 NumPy 多维数组 .31
2.1.1 NumPy 数组创建 32
2.1.2 Numpy 数组对象属性和数据转换 .34
2.1.3 生成随机数 .36
2.2 数组的索引和切片 37
2.2.1 一维数组的索引和切片 .37
2.2.2 多维数组的索引和切片 .38
2.2.3 花式索引 .40
2.3 数组的重构 41
2.3.1 数组的变形 .41
2.3.2 数组的拼接 .44
2.3.3 数组的分裂 .46
2.4 数组的运算 46
2.4.1 数组和标量间的运算 .46
2.4.2 通用函数 .47
2.4.3 条件逻辑运算 .49
2.4.4 广播机制 .50
2.4.5 数组的比较和布尔数组 .52
2.5 数组读 / 写 .54
2.5.1 读 / 写二进制文件 54
2.5.2 读 / 写文本文件 55
2.5.3 读 / 写 CSV 文件 55
2.6 NumPy 中的数据统计与分析 .56
2.6.1 排序 .56
2.6.2 重复数据与去重 .57
2.6.3 常用统计函数 .58
2.7 案例分析与实训 .59
习题 .63
第 3 章 Pandas 统计分析 .65
3.1 Pandas 中的数据结构 .65
3.1.1 Series 65
3.1.2 DataFrame .69
3.1.3 索引对象 .73
3.2 Pandas 索引操作 .74
3.2.1 重建索引 .74
3.2.2 更换索引 .76
3.3 DataFrame 数据的查询与编辑 .76
3.3.1 DataFrame 数据的查询 .76
3.3.2 DataFrame 数据的编辑 .79
3.4 Pandas 数据运算 .81
3.4.1 算术运算 .81
3.4.2 函数应用和映射 .82
3.4.3 排序 .83
3.4.4 汇总与统计 .85
3.5 层次化索引 .87
3.5.1 基本创建 .87
3.5.2 重排分级排序 .88
3.5.3 根据级别汇总统计 .89
3.5.4 DataFrame 数据列的使用 .90
3.6 数据分组与聚合 91
3.6.1 数据分组 .91
3.6.2 数据聚合 .96
3.6.3 分组运算 .97
3.7 数据透视表 98
3.7.1 透视表 .98
3.7.2 交叉表 .99
3.8 案例分析与实训.100
习题 .105
第二部分 数据分析流程及相关技术
第 4 章 数据载入与预处理.110
4.1 数据载入 110
4.1.1 文本类文件 .110
4.1.2 Excel 文件 .112
4.1.3 网络数据获取 .113
4.2 数据合并与重塑.120
4.2.1 merge 数据合并.120
4.2.2 concat 数据连接 .123
4.2.3 combine_first 合并数据.125
4.2.4 数据重塑 .125
4.3 数据清洗.131
4.3.1 空值与缺失值的处理 .131
4.3.2 检测与处理重复值 .135
4.3.3 检测与处理异常值 .137
4.3.4 更改数据类型 .138
4.4 数据标准化 140
4.4.1 离差标准化数据 .140
4.4.2 标准差标准化数据 .141
4.4.3 小数定标标准化 .142
4.5 数据转换 142
4.5.1 类别型数据的哑变量处理 .143
4.5.2 连续型变量的离散化 .143
4.6 特征工程与特征降维 145
4.6.1 特征工程 .145
4.6.2 特征降维 .145
4.7 案例分析与实训 150
习题 .156
第 5 章 数据分析可视化 159
5.1 Matplotlib 可视化基础 159
5.1.1 Matplotlib 三层次接口 .160
5.1.2 创建画布与子图 .160
5.1.3 添加画布内容 .163
5.1.4 绘图的保存与显示 .165
5.1.5 设置 Pyplot 的动态 rc 参数 165
5.2 常见图表类型 172
5.2.1 折线图 .172
5.2.2 条形图 .173
5.2.3 直方图 .173
5.2.4 散点图 .174
5.2.5 箱线图 .175
5.2.6 饼图 .176
5.2.7 概率图 .177
5.3 Seaborn 可视化 177
5.3.1 关系类图的绘制 .178
5.3.2 分布图的绘制 .179
5.3.3 分类图的绘制 .184
5.3.4 回归图的绘制 .186
5.3.5 热力图的绘制 .188
5.4 Pyecharts 可视化 189
5.4.1 基本配置 .189
5.4.2 常见图表绘制 .189
5.5 案例分析与实训 194
习题 .205
第 6 章 数据分析方法 .206
6.1 描述性统计分析 207
6.1.1 集中趋势分析 .207
6.1.2 离散程度分析 .208
6.1.3 数据分布形态 .211
6.2 回归分析法 212
6.2.1 线性回归 .212
6.2.2 多项式回归 .216
6.3 分类分析法 219
6.3.1 K 近邻算法 .219
6.3.2 逻辑回归 .224
6.3.3 决策树与随机森林 .228
6.3.4 朴素贝叶斯分类 .234
6.4 聚类分析法 237
6.4.1 K 均值聚类算法 .239
6.4.2 DBSCAN 聚类 244
6.5 人工神经网络与深度学习 248
6.5.1 人工神经网络 .248
6.5.2 深度学习 .250
6.6 案例分析与实训 253
习题 .259
第 7 章 时间序列数据分析 260
7.1 时间对象——Timestamp 261
7.1.1 创建时间戳 .261
7.1.2 最大时间 / 最小时间 262
7.1.3 常用属性 .262
7.2 时期对象——Period 263
7.2.1 创建 Period 对象 .263
7.2.2 Period 对象的属性 264
7.2.3 Period 对象的方法 264
7.3 时间间隔对象——Timedelta 266
7.3.1 创建 Timedelta 对象 .266
7.3.2 Timedelta 的属性操作 267
7.3.3 Timedelta 的基本方法 267
7.3.4 时间间隔的基本运算 .268
7.4 时间索引 269
7.4.1 时间序列 .269
7.4.2 有规律的时间序列 .270
7.5 重采样及频率转换 271
7.5.1 重采样方法 .272
7.5.2 降采样 .273
7.5.3 升采样 .273
7.6 时序模型——ARIMA .274
7.7 案例分析与实训——股票价格预测分析 .275
习题 .282
第 8 章 文本数据分析 .283
8.1 文本数据分析概述 283
8.1.1 文本处理工具——NLTK 与Jieba .283
8.1.2 文本预处理的流程 .284
8.2 使用 Jieba 处理文本 285
8.2.1 Jieba 的安装 285
8.2.2 Jieba 的应用 286
8.3 使用 NLTK 处理文本 290
8.3.1 NLTK 的安装 290
8.3.2 NLTK 的应用 291
8.4 文本相似度 294
8.4.1 相似度分析 .294
8.4.2 基于 NLTK 的文本相似度分析 295
8.4.3 基于 Gensim 的文本相似度分析 .296
8.5 文本情感分析 299
8.5.1 文本情感分析概述 .299
8.5.2 基于朴素贝叶斯的分析 .300
8.5.3 基于情感词典的分析 .301
8.6 文本分类 302
8.7 案例分析与实训——新闻栏目分类 .304
习题 .312
第 9 章 图像数据分析 .314
9.1 图像的本质 315
9.1.1 图像常用库和工具 .315
9.1.2 图像的基本分类 .316
9.1.3 图像载入与显示 .320
9.2 常见图像处理方法 323
9.2.1 直方图均衡 .323
9.2.2 图像空间滤波处理 .328
9.2.3 仿射变换 .331
9.3 案例分析与实训 334
习题 .338
参考文献
第 1 章 数据分析与 Python 基础 .2
1.1 数据分析基础 2
1.1.1 什么是数据分析 .2
1.1.2 数据分析流程 .5
1.1.3 数据分析的发展 .6
1.2 常用 Python 数据分析环境搭建 .6
1.2.1 在 Windows 下安装 Anaconda .6
1.2.2 Jupyter Notebook 的安装与启动 12
1.2.3 Jupyter Notebook 的基本使用 12
1.3 Python 编程基础 14
1.3.1 数据类型及其转换 .14
1.3.2 函数 .21
1.4 案例分析与实训 22
1.4.1 Python 做数学问题 .22
1.4.2 Python 做文字处理 .24
1.4.3 Python 做逻辑流程控制 .25
1.4.4 Python 做基本数据统计 .26
习题 .28
第 2 章 NumPy 数值计算 31
2.1 NumPy 多维数组 .31
2.1.1 NumPy 数组创建 32
2.1.2 Numpy 数组对象属性和数据转换 .34
2.1.3 生成随机数 .36
2.2 数组的索引和切片 37
2.2.1 一维数组的索引和切片 .37
2.2.2 多维数组的索引和切片 .38
2.2.3 花式索引 .40
2.3 数组的重构 41
2.3.1 数组的变形 .41
2.3.2 数组的拼接 .44
2.3.3 数组的分裂 .46
2.4 数组的运算 46
2.4.1 数组和标量间的运算 .46
2.4.2 通用函数 .47
2.4.3 条件逻辑运算 .49
2.4.4 广播机制 .50
2.4.5 数组的比较和布尔数组 .52
2.5 数组读 / 写 .54
2.5.1 读 / 写二进制文件 54
2.5.2 读 / 写文本文件 55
2.5.3 读 / 写 CSV 文件 55
2.6 NumPy 中的数据统计与分析 .56
2.6.1 排序 .56
2.6.2 重复数据与去重 .57
2.6.3 常用统计函数 .58
2.7 案例分析与实训 .59
习题 .63
第 3 章 Pandas 统计分析 .65
3.1 Pandas 中的数据结构 .65
3.1.1 Series 65
3.1.2 DataFrame .69
3.1.3 索引对象 .73
3.2 Pandas 索引操作 .74
3.2.1 重建索引 .74
3.2.2 更换索引 .76
3.3 DataFrame 数据的查询与编辑 .76
3.3.1 DataFrame 数据的查询 .76
3.3.2 DataFrame 数据的编辑 .79
3.4 Pandas 数据运算 .81
3.4.1 算术运算 .81
3.4.2 函数应用和映射 .82
3.4.3 排序 .83
3.4.4 汇总与统计 .85
3.5 层次化索引 .87
3.5.1 基本创建 .87
3.5.2 重排分级排序 .88
3.5.3 根据级别汇总统计 .89
3.5.4 DataFrame 数据列的使用 .90
3.6 数据分组与聚合 91
3.6.1 数据分组 .91
3.6.2 数据聚合 .96
3.6.3 分组运算 .97
3.7 数据透视表 98
3.7.1 透视表 .98
3.7.2 交叉表 .99
3.8 案例分析与实训.100
习题 .105
第二部分 数据分析流程及相关技术
第 4 章 数据载入与预处理.110
4.1 数据载入 110
4.1.1 文本类文件 .110
4.1.2 Excel 文件 .112
4.1.3 网络数据获取 .113
4.2 数据合并与重塑.120
4.2.1 merge 数据合并.120
4.2.2 concat 数据连接 .123
4.2.3 combine_first 合并数据.125
4.2.4 数据重塑 .125
4.3 数据清洗.131
4.3.1 空值与缺失值的处理 .131
4.3.2 检测与处理重复值 .135
4.3.3 检测与处理异常值 .137
4.3.4 更改数据类型 .138
4.4 数据标准化 140
4.4.1 离差标准化数据 .140
4.4.2 标准差标准化数据 .141
4.4.3 小数定标标准化 .142
4.5 数据转换 142
4.5.1 类别型数据的哑变量处理 .143
4.5.2 连续型变量的离散化 .143
4.6 特征工程与特征降维 145
4.6.1 特征工程 .145
4.6.2 特征降维 .145
4.7 案例分析与实训 150
习题 .156
第 5 章 数据分析可视化 159
5.1 Matplotlib 可视化基础 159
5.1.1 Matplotlib 三层次接口 .160
5.1.2 创建画布与子图 .160
5.1.3 添加画布内容 .163
5.1.4 绘图的保存与显示 .165
5.1.5 设置 Pyplot 的动态 rc 参数 165
5.2 常见图表类型 172
5.2.1 折线图 .172
5.2.2 条形图 .173
5.2.3 直方图 .173
5.2.4 散点图 .174
5.2.5 箱线图 .175
5.2.6 饼图 .176
5.2.7 概率图 .177
5.3 Seaborn 可视化 177
5.3.1 关系类图的绘制 .178
5.3.2 分布图的绘制 .179
5.3.3 分类图的绘制 .184
5.3.4 回归图的绘制 .186
5.3.5 热力图的绘制 .188
5.4 Pyecharts 可视化 189
5.4.1 基本配置 .189
5.4.2 常见图表绘制 .189
5.5 案例分析与实训 194
习题 .205
第 6 章 数据分析方法 .206
6.1 描述性统计分析 207
6.1.1 集中趋势分析 .207
6.1.2 离散程度分析 .208
6.1.3 数据分布形态 .211
6.2 回归分析法 212
6.2.1 线性回归 .212
6.2.2 多项式回归 .216
6.3 分类分析法 219
6.3.1 K 近邻算法 .219
6.3.2 逻辑回归 .224
6.3.3 决策树与随机森林 .228
6.3.4 朴素贝叶斯分类 .234
6.4 聚类分析法 237
6.4.1 K 均值聚类算法 .239
6.4.2 DBSCAN 聚类 244
6.5 人工神经网络与深度学习 248
6.5.1 人工神经网络 .248
6.5.2 深度学习 .250
6.6 案例分析与实训 253
习题 .259
第 7 章 时间序列数据分析 260
7.1 时间对象——Timestamp 261
7.1.1 创建时间戳 .261
7.1.2 最大时间 / 最小时间 262
7.1.3 常用属性 .262
7.2 时期对象——Period 263
7.2.1 创建 Period 对象 .263
7.2.2 Period 对象的属性 264
7.2.3 Period 对象的方法 264
7.3 时间间隔对象——Timedelta 266
7.3.1 创建 Timedelta 对象 .266
7.3.2 Timedelta 的属性操作 267
7.3.3 Timedelta 的基本方法 267
7.3.4 时间间隔的基本运算 .268
7.4 时间索引 269
7.4.1 时间序列 .269
7.4.2 有规律的时间序列 .270
7.5 重采样及频率转换 271
7.5.1 重采样方法 .272
7.5.2 降采样 .273
7.5.3 升采样 .273
7.6 时序模型——ARIMA .274
7.7 案例分析与实训——股票价格预测分析 .275
习题 .282
第 8 章 文本数据分析 .283
8.1 文本数据分析概述 283
8.1.1 文本处理工具——NLTK 与Jieba .283
8.1.2 文本预处理的流程 .284
8.2 使用 Jieba 处理文本 285
8.2.1 Jieba 的安装 285
8.2.2 Jieba 的应用 286
8.3 使用 NLTK 处理文本 290
8.3.1 NLTK 的安装 290
8.3.2 NLTK 的应用 291
8.4 文本相似度 294
8.4.1 相似度分析 .294
8.4.2 基于 NLTK 的文本相似度分析 295
8.4.3 基于 Gensim 的文本相似度分析 .296
8.5 文本情感分析 299
8.5.1 文本情感分析概述 .299
8.5.2 基于朴素贝叶斯的分析 .300
8.5.3 基于情感词典的分析 .301
8.6 文本分类 302
8.7 案例分析与实训——新闻栏目分类 .304
习题 .312
第 9 章 图像数据分析 .314
9.1 图像的本质 315
9.1.1 图像常用库和工具 .315
9.1.2 图像的基本分类 .316
9.1.3 图像载入与显示 .320
9.2 常见图像处理方法 323
9.2.1 直方图均衡 .323
9.2.2 图像空间滤波处理 .328
9.2.3 仿射变换 .331
9.3 案例分析与实训 334
习题 .338
参考文献