全国大中专教材网络采选系统 - 新华国采教育网络科技有限责任公司

推荐纸质教材推荐数字资源

数据采集与处理

￥49.80定价

作者：刘珍

出版时间：2024-04

出版社：电子工业出版社

以下为《数据采集与处理》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：电子工业出版社
ISBN：9787121468841
版次：1-2
图书编号：525129
本季征订号：66255090-4
装帧：平塑
开本：16开
出版时间：2024-04
页数：252
适用专业：程序设计
适用分级：高职

内容简介

本书基于Python 3.10版本，以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识，主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等，通过多个实战任务的练习，让读者能最大限度地掌握Python网络爬虫的核心技术。为了方便读者学习，本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。__eol__本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。

项目1 Python基础实战 1__eol__任务1.1 Python开发环境搭建 2__eol__1.1.1 在Windows系统中安装Python 2__eol__1.1.2 在Linux系统中安装Python 4__eol__1.1.3 安装PyCharm集成开发环境 5__eol__任务1.2 从HTML文档中提取特定字符串 10__eol__1.2.1 数值类型与变量 10__eol__1.2.2 字符串 11__eol__1.2.3 运算符 12__eol__1.2.4 流程控制 13__eol__任务1.3 用列表、字典等组织数据 16__eol__1.3.1 列表（list） 17__eol__1.3.2 元组（tuple） 17__eol__1.3.3 字典（dict） 18__eol__1.3.4 集合（set） 19__eol__1.3.5 函数 20__eol__任务1.4 基于正则表达式提取图片链接文本 23__eol__1.4.1 模块和包 23__eol__1.4.2 异常处理 26__eol__1.4.3 正则表达式 28__eol__任务1.5 从JSON文件中加载数据 31__eol__1.5.1 类与对象 31__eol__1.5.2 文件与目录操作 34__eol__1.5.3 JSON 38__eol__项目2 网页数据采集实战 43__eol__任务2.1 利用工具爬取一个电商网页 43__eol__2.1.1 爬虫的定义 44__eol__2.1.2 爬虫的类型 44__eol__2.1.3 与爬虫相关的网站文件 47__eol__2.1.4 反爬虫应对策略 48__eol__2.1.5 爬虫的合法性 50__eol__任务2.2 基于urllib库爬取一个电商网页 57__eol__任务2.3 urllib处理发送GET/POST请求 61__eol__任务2.4 请求头伪装与代理服务器应用 66__eol__2.4.1 请求头伪装 67__eol__2.4.2 代理服务器 67__eol__任务2.5 网络异常处理 73__eol__2.5.1 URLError 73__eol__2.5.2 HTTPError 74__eol__任务2.6 基于requests库爬取电商网页 74__eol__项目3 网页数据解析实战 79__eol__任务3.1 HTML基础 79__eol__3.1.1 HTML网页的结构 80__eol__3.1.2 Chrome浏览器的DevTools 81__eol__任务3.2 基于正则表达式的网页数据解析 85__eol__任务3.3 XPath应用 88__eol__3.3.1 XPath简介 89__eol__3.3.2 lxml简介 94__eol__任务3.4 Beautiful Soup解析数据 99__eol__任务3.5 JSON数据解析 106__eol__项目4 并发技术实战 112__eol__任务4.1 基于进程的并发爬虫 112__eol__4.1.1 并发原理 113__eol__4.1.2 进程（Process） 113__eol__4.1.3 Python的多进程并发编程 114__eol__任务4.2 基于queue模块的多线程爬虫 122__eol__4.2.1 线程（Thread） 123__eol__4.2.2 Python的多线程并发编程 123__eol__任务4.3 基于协程的并发爬虫 129__eol__任务4.4 历史天气并发爬取 131__eol__项目5 动态内容采集实战 139__eol__任务5.1 动态网页基础 139__eol__任务5.2 Selenium的安装配置 144__eol__任务5.3 基于Selenium的动态网页爬取 148__eol__任务5.4 基于Selenium的模拟登录 150__eol__任务5.5 验证码的识别处理 154__eol__5.5.1 验证码基础 154__eol__5.5.2 Pytesseract简介 155__eol__5.5.3 PIL简介 156__eol__任务5.6 基于Selenium的招聘职位获取 159__eol__项目6 爬虫数据存储实战 165__eol__任务6.1 MongoDB基础 165__eol__6.1.1 MongoDB的安装 166__eol__6.1.2 MongoDB的基本操作 170__eol__任务6.2 基于PyMongo的爬虫数据存储 174__eol__任务6.3 Redis数据库基础 179__eol__6.3.1 Redis的安装 180__eol__6.3.2 Redis的操作命令 182__eol__任务6.4 基于redis模块的爬虫数据存储 184__eol__项目7 Scrapy爬虫框架实战 188__eol__任务7.1 Scrapy爬虫框架基础 188__eol__7.1.1 Scrapy爬虫框架简介 189__eol__7.1.2 Scrapy项目创建 191__eol__7.1.3 Scrapy常用命令 192__eol__任务7.2 定义Spider爬取斗鱼直播平台数据 195__eol__7.2.1 Item类简介 196__eol__7.2.2 Spider类简介 196__eol__任务7.3 自定义爬虫中间件爬取众图网数据 202__eol__7.3.1 Scrapy的settings文件 202__eol__7.3.2 Downloader Middlewares 203__eol__任务7.4 CrawlSpider自动爬取数据 213__eol__7.4.1 CrawlSpider 213__eol__7.4.2 Rule 214__eol__7.4.3 LinkExtractor 215__eol__任务7.5 应用Item Pipeline进行后期数据处理 219__eol__任务7.6 综合实训——百度科学百科数据爬取 222__eol____eol____eol__