注册 登录 进入教材巡展
#

出版时间:2023-08

出版社:西安电子科技大学出版社

以下为《Hadoop生态系统及开发》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 西安电子科技大学出版社
  • 9787560669212
  • 1-1
  • 514081
  • 65246740-8
  • 平装
  • 16开
  • 2023-08
  • 377
  • 256
  • TP274
  • 自动化技术、计算机技术
  • 本科 高职
内容简介
本书主要围绕Hadoop及其生态系统中的各种工具展开讲解,重点介绍大数据分析处理的整体流程,剖析每个环节中所使用的不同组件的技术原理和特点。本书内容共分为七个模块:模块一为大数据基础概述,主要讲述大数据的概念、来源、应用场景、大数据时代的机遇和挑战等相关内容;模块二至模块六以Hadoop生态系统为基础,系统地讲解了分布式文件系统HDFS、分布式计算框架MapReduce、分布式资源管理器YARN、分布式NoSQL数据库HBase、分布式数据仓库Hive、数据采集系统Flume和分布式发布订阅消息系统Kafka,每一个模块均附有大量的实训内容,操作指导步骤详细,以方便读者掌握相关知识;模块七为大数据日志分析综合项目案例,通过案例将前面模块所学的内容融会贯通,以方便读者掌握大数据开发的核心流程。
本书由深圳市讯方技术股份有限公司与重庆机电职业技术大学共同编写,并以新时代中国特色社会主义思想为思政面,每个模块均融入思政元素,内容丰富、概念清晰,可作为大数据相关专业的教材,也可作为大数据领域技术人员及编程爱好者的参考用书。
目录
模块一 大数据基础概述 1
1.1 大数据的概念和价值 1
1.2 大数据的来源 3
1.3 大数据的应用场景 3
1.4 大数据时代的机遇和挑战 6
1.5 Hadoop及其生态系统简介 8
1.6 大数据行业的人才需求状况 11
知识巩固 12
模块二 Hadoop分布式文件系统HDFS 13
2.1 HDFS概述及基本概念 13
2.1.1 HDFS概述 13
2.1.2 HDFS的基本概念 14
2.2 HDFS的系统架构与适用场景 16
2.2.1 HDFS的系统架构 16
2.2.2 HDFS的适用场景 18
2.3 HDFS的操作方式 19
2.3.1 常用Shell命令 19
2.3.2 HDFS的数据写入流程 21
2.3.3 HDFS的数据读取流程 22
2.4 HDFS的关键特性 23
2.4.1 HDFS的架构设计特性 23
2.4.2 HDFS的高可用性 23
2.4.3 元数据持久化 25
2.4.4 HDFS的联邦存储机制 27
2.4.5 HDFS的数据副本机制 28
2.4.6 HDFS的数据存储策略 30
2.4.7 HDFS的数据完整性保障 31
2.4.8 HDFS的其他关键特性 32
技能实训 32
实训2.1 基础实训环境准备 32
实训2.2 HDFS的安装部署与配置 42
实训2.3 HDFS的读写API操作 53
知识巩固 61
模块三 分布式计算框架MapReduce和分布式资源管理器YARN 62
3.1 MapReduce和YARN概述 62
3.1.1 MapReduce概述 62
3.1.2 YARN概述 63
3.2 MapReduce和YARN的工作过程与架构 64
3.2.1 MapReduce的基本工作过程 64
3.2.2 Shuffle过程 66
3.2.3 YARN的组件架构 70
3.2.4 MapReduce on YARN任务调度流程 73
3.2.5 YARN RM的HA方案 74
3.3 YARN的资源管理和任务调度 75
3.3.1 资源管理及分配模型 75
3.3.2 调度器的介绍 75
3.3.3 Capacity调度器的特点与管理 78
3.3.4 Fair调度器的特点与管理 82
3.3.5 Capacity调度器与Fair调度器的对比与选型 82
技能实训 83
实训3.1 YARN集群的部署 83
实训3.2 单词计数(WordCount)程序的编写 88
知识巩固 93
模块四 分布式NoSQL数据库HBase 94
4.1 HBase概述 94
4.1.1 HBase简介 94
4.1.2 HBase与RDB的对比 95
4.1.3 HBase的应用场景 95
4.1.4 行存储与列存储 96
4.1.5 Key-Value存储模型 97
4.2 HBase的架构 97
4.2.1 HBase架构介绍 97
4.2.2 Master 99
4.2.3 RegionServer 99
4.2.4 Region 100
4.2.5 ColumnFamily 102
4.2.6 各个组件之间的逻辑关系 103
4.3 HBase的关键流程 104
4.3.1 写流程 104
4.3.2 读流程 106
技能实训 106
实训4.1 HBase的安装与配置 106
实训4.2 HBase命令行之Shell操作 117
实训4.3 HBase的API操作 124
知识巩固 129
模块五 分布式数据仓库Hive 130
5.1 Hive概述 130
5.1.1 数据仓库的概念及特点 130
5.1.2 Hive的概念与HiveQL简介 131
5.1.3 Hive的应用场景 131
5.1.4 Hive与传统数据仓库比较 132
5.1.5 Hive的优缺点 133
5.2 Hive的架构原理 133
5.2.1 Hive的架构 133
5.2.2 Hive的存储模型与数据模型 134
5.2.3 Hive的存储格式 136
5.3 Hive的基本操作 138
5.4 HiveQL的应用 138
5.4.1 数据定义语言(DDL)讲解 138
5.4.2 数据操纵语言(DML)讲解 140
5.4.3 数据查询语言(DQL)讲解 140
技能实训 141
实训5.1 Hive的安装与部署 141
实训5.2 数据定义操作的具体实现 148
实训5.3 数据操纵操作的具体实现 158
实训5.4 查询操作的具体实现 165
知识巩固 171
模块六 Hadoop其他大数据生态组件 172
6.1 数据采集系统Flume 172
6.1.1 Flume简介及其架构 172
6.1.2 Flume的关键特性 174
6.2 分布式发布订阅消息系统Kafka 176
6.2.1 Kafka简介 176
6.2.2 Kafka的架构与功能 177
6.2.3 Kafka的常用命令 180
技能实训 182
实训6.1 Flume的安装与部署 182
实训6.2 用Flume采集数据到HDFS 187
实训6.3 Kafka集群部署 191
实训6.4 发布订阅消息系统Kafka的具体实现 194
知识巩固 196
模块七 大数据日志分析综合项目案例 197
7.1 项目准备 197
7.2 项目实施 199
7.3 项目总结 244
知识巩固 244
附录1 搭建虚拟机环境 245

附录2 大数据常用管理脚本 246

参考文献 248
Baidu
map