注册 登录 进入教材巡展
#

出版时间:2021-09

出版社:电子工业出版社

以下为《大数据采集与处理》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121420115
  • 1-1
  • 421650
  • 47245663-1
  • 平塑勒
  • 16开
  • 2021-09
  • 748
  • 492
  • 工学
  • 计算机科学与技术
  • 计算机科学与技术
  • 本科 研究生(硕士、EMBA、MBA、MPA、博士)
目录
第1章 大数据基础 1 1.1 大数据概念及特征 1 1.2 大数据采集与处理基本流程 2 1.2.1 大数据采集 3 1.2.2 大数据预处理 3 1.2.3 大数据处理 4 1.3 大数据分析 5 1.4 大数据应用 6 1.4.1 大数据应用行业分类 6 1.4.2 大数据分析在商业上的应用 7 习题 9 参考文献 9 第2章 开源Hadoop 10 2.1 Hadoop概述 10 2.1.1 Hadoop简介 10 2.1.2 Hadoop起源及发展史 11 2.1.3 Hadoop发行版本 12 2.1.4 Hadoop特性 13 2.2 Hadoop生态系统 13 2.2.1 HDFS 14 2.2.2 MapReduce 15 2.2.3 Hive 15 2.2.4 ZooKeeper 16 2.2.5 Flume 17 2.2.6 Kafka 17 2.2.7 Spark 18 2.2.8 Storm 19 2.2.9 Flink 20 2.2.10 YARN 20 2.3 Hadoop的安装与使用 21 2.3.1 环境准备 22 2.3.2 单机模式 24 2.3.3 伪分布式 25 2.3.4 完全分布式安装 38 习题 44 参考文献 45 第3章 大数据采集 46 3.1 数据采集与大数据采集 46 3.1.1 数据采集 47 3.1.2 大数据采集及数据来源 47 3.1.3 传统数据采集与大数据采集的区别 48 3.1.4 大数据采集分类 48 3.2 大数据采集方法 49 3.2.1 数据库采集 50 3.2.2 系统日志采集 50 3.2.3 网络数据采集 51 3.2.4 传感器采集 51 3.2.5 众包采集 51 3.3 常用采集工具及平台 52 3.3.1 Flume 52 3.3.2 Fluentd 53 3.3.3 Logstash 55 3.3.4 Chukwa 56 3.3.5 Scribe 57 3.3.6 Splunk 58 3.3.7 Scrapy 59 3.4 网络爬虫 61 3.4.1 网络爬虫分类 61 3.4.2 网络爬虫发展现状 62 3.4.3 网络爬虫使用技术 63 3.5 实战 64 3.5.1 项目准备 64 3.5.2 架构设计 65 3.5.3 代码实现 66 3.5.4 结果展示 73 习题 78 参考文献 78 第4章 日志采集 79 4.1 日志采集概述 79 4.1.1 系统日志分类 79 4.1.2 日志分析系统架构及日志采集方式 80 4.1.3 日志采集应用场景与日志分析应用场景 81 4.1.4 日志采集系统关键技术 82 4.2 Scribe 83 4.2.1 Scribe概述 83 4.2.2 Scribe全局配置 83 4.2.3 Scribe的存储类型配置 84 4.3 Chukwa 88 4.3.1 Chukwa概述 88 4.3.2 Chukwa架构 88 4.3.3 Chukwa数据收集应用 89 4.4 Kafka 90 4.4.1 Kafka概述 90 4.4.2 Kafka架构 91 4.4.3 Kafka日志采集 93 4.5 Flume 94 4.5.1 Flume概述 94 4.5.2 Flume架构 95 4.5.3 Flume的优势 95 4.6 实战 95 4.6.1 Flume安装部署 96 4.6.2 环境测试 98 4.6.3 采集目录到HDFS 99 4.6.4 采集文件到HDFS 100 习题 101 参考文献 101 第5章 大数据预处理 102 5.1 为什么要进行数据预处理 102 5.2 大数据预处理总体架构 104 5.3 大数据预处理方法 105 5.3.1 数据清洗 105 5.3.2 数据集成 108 5.3.3 数据转换 109 5.3.4 数据消减 110 5.4 ETL工具Kettle 116 5.4.1 ETL介绍 116 5.4.2 Kettle介绍 119 5.4.3 Kettle安装与配置 142 5.5 实战 151 5.5.1 基于Python的数据预处理 151 5.5.2 基于Hadoop生态圈的Kettle应用 155 习题 179 参考文献 180 第6章 大数据存储 182 6.1 大数据存储概述 183 6.1.1 大数据存储面临的问题 183 6.1.2 大数据存储方式 184 6.1.3 大数据存储技术路线 184 6.2 HDFS 185 6.2.1 HDFS架构 186 6.2.2 HDFS存储机制 187 6.2.3 NameNode和DataNode工作机制 190 6.3 NoSQL 193 6.3.1 NoSQL数据库概述 193 6.3.2 HBase 198 6.3.3 MongoDB 206 6.3.4 Redis 214 6.4 ElasticSearch 220 6.4.1 ElasticSearch概述 220 6.4.2 ElasticSearch基本概念 221 6.4.3 ElasticSearch工作原理 223 6.4.4 ElasticSearch存储机制 224 6.4.5 ElasticSearch分布式存储 226 6.4.6 ElasticSearch安装与运行 229 6.5 实战 231 6.5.1 主从模式搭建 231 6.5.2 Sentinel模式搭建 235 6.5.3 Cluster模式搭建 238 习题 245 参考文献 245 第7章 MapReduce 246 7.1 概述 246 7.2 MapReduce计算框架 247 7.2.1 MapReduce模型 247 7.2.2 MapReduce函数 249 7.2.3 MapReduce资源管理 250 7.2.4 MapReduce生命周期管理 251 7.3 MapReduce工作流程及原理 253 7.3.1 MapReduce工作流程 253 7.3.2 MapReduce工作原理 254 7.4 深入Shuffle过程 255 7.4.1 Map端Shuffle 256 7.4.2 Reduce端Shuffle 260 7.5 实战 262 7.5.1 任务准备 262 7.5.2 编写Map程序 262 7.5.3 编写Reduce 程序 263 7.5.4 编写main函数 265 7.5.5 核心代码包 265 7.5.6 运行代码 266 习题 266 参考文献 267 第8章 Hive数据仓库 268 8.1 数据仓库简介 269 8.1.1 数据仓库概念 269 8.1.2 数据仓库的结构 269 8.1.3 传统数据仓库的问题 271 8.1.4 数据仓库
Baidu
map