大数据分析技术与应用实践 / 面向新工科专业建设计算机系列教材
作者: 王宇新,齐恒等
出版时间:2020-06
出版社:清华大学出版社
- 清华大学出版社
- 9787302547211
- 1-1
- 320844
- 48210273-8
- 16开
- 2020-06
- 工学
- 计算机科学与技术
- 计算机
- 本科
《大数据分析技术与应用实践/面向新工科专业建设计算机系列教材》首先从大数据技术概述出发,给出大数据领域的技术概貌及相关应用场景,从而使读者对大数据概念有清晰的认识;其次,《大数据分析技术与应用实践/面向新工科专业建设计算机系列教材》采取top-down模式,先从计算广告这一具有代表性的应用实践着手,阐明大数据技术是如何应用并发挥效用的;再次,依次介绍大数据采集与处理、大数据存储与查询、大数据计算与分析等关键技术;最后,将关键技术引申到两类重要的大数据应用技术:一类是Spark和机器学习应用,另一类是数据可视化应用。以此构建了一个大数据分析技术的基本闭环。
除了内容的闭环体系之外,《大数据分析技术与应用实践/面向新工科专业建设计算机系列教材》的另一大特色是将项目实践拆解融入各项关键技术中,从而实现理论与实践的有机融合,满足“新工科”建设的首要需求。
《大数据分析技术与应用实践/面向新工科专业建设计算机系列教材》可作为高等院校计算机类专业的大数据分析、应用方面的理论或实践课程的教材,也可供自学者及从事计算机应用、大数据开发等的工程技术人员参考。
第1章 大数据技术概述
1.1 大数据产品诞生
1.2 什么是大数据
1.3 大数据解决的问题场景
1.4 大数据与Google
习题1
第2章 计算广告介绍与课程应用实践
2.1 计算广告
2.1.1 互联网广告介绍
2.1.2 互联网广告效果评估
2.1.3 如何计算
2.1.4 计算广告系统
2.2 应用实践
2.2.1 应用实践数据
2.2.2 CTR预测
2.2.3 项目实践1:了解应用实践数据
2.2.4 项目实践2:实践环境搭建
习题2
第3章 大数据采集与处理
3.1 网络爬虫
3.1.1 网络爬虫介绍
3.1.2 构建一个网络爬虫的实践经验
3.1.3 HTTP介绍
3.1.4 网页解析与CSS选择器
3.1.5 项目实践3:抓取网页并提取标题和正文
3.2 ApacheKafka
3.2.1 系统架构
3.2.2 消息、主题和Schema
3.2.3 分区
3.2.4 生产者与消费者
3.2.5 代理
3.2.6 Kafka关键特性
3.2.7 项目实践4:通过Kafka进行数据处理
3.2.8 构建一个真实数据通道需要考虑的问题
3.3 ETL、ApacheFlume和其他框架
3.3.1 ETL
3.3.2 ApacheFlume
3.3.3 其他大数据采集处理框架
习题3
……
第4章 大数据存储与查询
第5章 大数据计算与分析
第6章 Spark和机器学习
第7章 数据可视化