全国大中专教材网络采选系统 - 新华国采教育网络科技有限责任公司

推荐纸质教材推荐数字资源

Python爬虫大数据采集与挖掘（微课视频版）

￥59.80定价

作者：曾剑平

出版时间：2020-01

出版社：清华大学出版社

以下为《Python爬虫大数据采集与挖掘（微课视频版）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：清华大学出版社
ISBN：9787302540540
图书编号：293504
出版时间：2020-01

内容简介

本书围绕大数据采集,对采集技术的相关基础、技术原理、 Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Python程序。全书共分为四大部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robots、 HTML、页面编码等相关协议和规范; 第三部分是技术与实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 DeepWeb爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子; 第四部分是大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。
本书可以作为高等院校大数据、计算机、信息以及经管、金融等相关专业的教材,也可以作为大数据、计算机、信息以及经管、金融等领域研究人员和专业技术人员的参考书。

目录源码下载第一部分概述第1章大数据采集概述 1.1互联网大数据与采集 1.1.1互联网大数据来源 1.1.2互联网大数据的特征 1.2Python爬虫大数据采集技术的重要性 1.3爬虫技术研究及应用现状 1.4爬虫技术的应用场景 1.5爬虫大数据采集的技术体系 1.5.1技术体系构成 1.5.2相关技术 1.5.3技术评价方法 1.6爬虫大数据采集与挖掘的合规性 1.7爬虫大数据采集技术的展望思考题第二部分基础篇第2章Web页面及相关技术 2.1HTML语言规范 2.1.1HTML标签 2.1.2HTML整体结构 2.1.3CSS简述 2.1.4常用标签 2.1.5HTML语言的版本进化 2.2编码体系与规范 2.2.1ASCII 2.2.2gb2312/gbk 2.2.3unicode 2.2.4utf8 2.2.5网页中的编码和Python处理 2.3Python正则表达式思考题第3章Web应用架构与协议 3.1常用的Web服务器软件 3.1.1流行的Web服务器软件 3.1.2在Python中配置Web服务器 3.2Web服务器的应用架构 3.2.1典型的应用架构 3.2.2Web页面的类型 3.2.3页面文件的组织方式 3.3Robots协议