《Python数据爬取技术与实战手册》郭卡//戴亮中国铁道出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

第1章最佳拍档：网络爬虫与Python语言
1.1 什么是网络爬虫
1.1.1 网络爬虫的定义
1.1.2 网络爬虫的工作流程
1.1.3 网络爬虫的分类
1.1.4 为什么选择用Pvthon编写网络爬虫
1.1.5 编写爬虫的注意事项
1.2 Pvthon环境配置
1.2.1 Pvthon的安装
1.2.2 Pvthon第三方库的安装
【示例1.1】使用包管理器安装科学计算库numpy
【示例1.2】源代码方式安装xlrd库(使用setup.py文件)
【示例1.3】源代码方式安装xlrd库(使用whl文件)
1.2.3 Pvthon开发工具的选择
【示例1.4】将文本编辑器配置成Python开发工具(以Notepad++为例)
1.3 P、rthon基本语法
113.1 Pvthon书写规则
1.3.2 Pvthon基本数据类型
【示例1.5】以列表a=H，’a’，fb’，’c，’d’,e’】为例讲解List的基本操作
【示例1.6】以列表a=[1，2，3，4，5，6，7，8】为例讲解数据型列表的属性分析
【示例1.7】以字典a为例，讲解字典的基本操作
1.3.3 Pvthon独有数据生成方式：推导式
1.3.4 函数
【示例1.8】局部变量与全局变量重名的运行结果与解决方案
1.3.5 条件与循环
1.3.6 类与对象
【示例1.9】请输出学生信息中某学生的班级、姓名和总分数
1.3.7 Pvthon 2代码转为Pvthon 3代码
【示例1.10】以文件test.py为例，介绍Python 2代码到Python 3代码的转化
第2章应知应会：网络爬虫基本知识
2.1 网页的构成
2.1.1 HTML基本知识
2.1.2 网页中各元素的排布
【示例2.1】以新浪博客文本为例，学习各类元素的排布规则
2.2 正则表达式
2.2.1 正则表达式简介
2.2.2 Pytlaon语言中的正则表达式
【示例2.2】正则表达式应用中，当匹配次数达到10万时，预先编译对正则表达式
性能的提升
2.2.3 综合实例：正则表达式的实际应用.在二手房网站中提取有用信息
2.3 汉字编码问题
2.3.1 常见编码简介
2.3.2 常用编程环境的默认编码
2.3.3 网页编码
2.3.4 编码转换
2.4 网络爬虫的行为准则
2.4.1 遵循Robots协议
2.4.2 网络爬虫的合法性
第3章静态网页爬取
3.1 .Pytion常用网络库
3.1.1 urllib库
【示例3.1】从众多代理IP中选取可用的IP
【示例3.2】百度搜索“Pytlaon”url演示Parse模块应用
3.1.2 综合实例：批量获取高清壁纸
3.1.3 requests库
【示例3.3】用requests实现豆瓣网站模拟登录
3.1.4 综合实例：爬取历史天气数据预测天气变化
3.2 网页解析工具
3.2.1 更易上手：BeautifulSoup
【示例3.4】解析HTML文档(以豆瓣读书((解忧杂货店》为例)
3.2.2 更快速度：lxml
3.2.3 BeautifulSoup与lxml对比
【示例3.5】爬取豆瓣读书中近5年出版的评分7分以上的漫画
【示例3—6】BeautifuISoup和lxml解析同样网页速度测试(基于网易新闻首页)
3.2.4 综合实例：在前程无忧中搜索并抓取不同编程语言岗位的平均收入
第4章动态网页爬取
4.1 AJAX技术
4.1.1 获取AJAx请求
4.1.2 综合实例：抓取简书百万用户个人主页
4.2 Selenium操作浏览器
4.2.1 驱动常规浏览器
4.2.2 驱动无界面浏览器
4.2.3 综合实例：模拟登录新浪微博并下载短视频
4.3 爬取移动端数据
4.3.2 综合实例：Fiddle实际应用一爬取大角虫漫画信息
第5章统一架构与规范：网络爬虫框架
5.1 最流行的网络爬虫框架：Scrapy
5.1.1 安装须知与错误解决方案
5.1.2 Scrapy的组成与功能
5.2 综合实例：使用Scrapy构建观影指南
5.2.1 网络爬虫准备工作
5.2.2 编写Spider
5.21 3 处理Item
5.2.4 运行网络爬虫
5.2.5 数据分析
5.3 更易上手的网络爬虫框架：Pyspider
5.3.1 危0建Pyspider项目
【示例5—1】利用Pyspider创建抓取煎蛋网项目并测试代码
5.3.2 运行Pyspider项目
第6章反爬虫应对策略
6.1 设置Headers信息
6.1.1 User.Agent
6.1.2 C00kie
6.2 建立IP代理池
6.2.1 建立IP代理池的思路
6.2.2 建立IP代理池的步骤
6.3 验证码识别
6.3.1 识别简单的验证码
【示例6.1】通过pytesseract库识别8个简单的验证码，并逐步提升准确率
6.3.2 识别汉字验证码
6.3.3 人工识别复杂验证码
6.3.4 利用Cookie绕过验证码
第7章提升网络爬虫效率
7.1 网络爬虫策略
7.1.1 广度优先策略
7.1.2 深度优先策略
7.1.3 按网页权重决定爬取优先级
7.1.4 综合实例：深度优先和广度优先策略效率对比
(抓取慕课网实战课程地址)
7.2 提升网络爬虫的速度
7.2.1 多线程
【示例7.1】使用4个线程同步抓取慕课网实战课程地址(基于深度优先策略)
7.2.2 多进程
7.2.3

图书	Python数据爬取技术与实战手册
内容	内容推荐海量数据的产生和大数据的高价值利用，让数据爬取变得日益重要。郭卡、戴亮编著的《Python数据爬取技术与实战手册》为读者介绍了如何使用Python编写网络爬虫批量采集互联网数据，如何处理与保存采集到的信息，以及如何从众多纷乱的数据中提取到真正有用的信息。本书末尾介绍了几种常用的数据可视化工具。让读者能够从头到尾完整地完成网络数据的采集与分析项目。本书理论与实例并重，既能够帮助数据从业者快速提升工作效率，又可以帮助大数据爱好者用网络爬虫方便生活。目录第1章最佳拍档：网络爬虫与Python语言 1.1 什么是网络爬虫 1.1.1 网络爬虫的定义 1.1.2 网络爬虫的工作流程 1.1.3 网络爬虫的分类 1.1.4 为什么选择用Pvthon编写网络爬虫 1.1.5 编写爬虫的注意事项 1.2 Pvthon环境配置 1.2.1 Pvthon的安装 1.2.2 Pvthon第三方库的安装【示例1.1】使用包管理器安装科学计算库numpy 【示例1.2】源代码方式安装xlrd库(使用setup.py文件) 【示例1.3】源代码方式安装xlrd库(使用whl文件) 1.2.3 Pvthon开发工具的选择【示例1.4】将文本编辑器配置成Python开发工具(以Notepad++为例) 1.3 P、rthon基本语法 113.1 Pvthon书写规则 1.3.2 Pvthon基本数据类型【示例1.5】以列表a=H，’a’，fb’，’c，’d’,e’】为例讲解List的基本操作【示例1.6】以列表a=[1，2，3，4，5，6，7，8】为例讲解数据型列表的属性分析【示例1.7】以字典a为例，讲解字典的基本操作 1.3.3 Pvthon独有数据生成方式：推导式 1.3.4 函数【示例1.8】局部变量与全局变量重名的运行结果与解决方案 1.3.5 条件与循环 1.3.6 类与对象【示例1.9】请输出学生信息中某学生的班级、姓名和总分数 1.3.7 Pvthon 2代码转为Pvthon 3代码【示例1.10】以文件test.py为例，介绍Python 2代码到Python 3代码的转化第2章应知应会：网络爬虫基本知识 2.1 网页的构成 2.1.1 HTML基本知识 2.1.2 网页中各元素的排布【示例2.1】以新浪博客文本为例，学习各类元素的排布规则 2.2 正则表达式 2.2.1 正则表达式简介 2.2.2 Pytlaon语言中的正则表达式【示例2.2】正则表达式应用中，当匹配次数达到10万时，预先编译对正则表达式性能的提升 2.2.3 综合实例：正则表达式的实际应用.在二手房网站中提取有用信息 2.3 汉字编码问题 2.3.1 常见编码简介 2.3.2 常用编程环境的默认编码 2.3.3 网页编码 2.3.4 编码转换 2.4 网络爬虫的行为准则 2.4.1 遵循Robots协议 2.4.2 网络爬虫的合法性第3章静态网页爬取 3.1 .Pytion常用网络库 3.1.1 urllib库【示例3.1】从众多代理IP中选取可用的IP 【示例3.2】百度搜索“Pytlaon”url演示Parse模块应用 3.1.2 综合实例：批量获取高清壁纸 3.1.3 requests库【示例3.3】用requests实现豆瓣网站模拟登录 3.1.4 综合实例：爬取历史天气数据预测天气变化 3.2 网页解析工具 3.2.1 更易上手：BeautifulSoup 【示例3.4】解析HTML文档(以豆瓣读书((解忧杂货店》为例) 3.2.2 更快速度：lxml 3.2.3 BeautifulSoup与lxml对比【示例3.5】爬取豆瓣读书中近5年出版的评分7分以上的漫画【示例3—6】BeautifuISoup和lxml解析同样网页速度测试(基于网易新闻首页) 3.2.4 综合实例：在前程无忧中搜索并抓取不同编程语言岗位的平均收入第4章动态网页爬取 4.1 AJAX技术 4.1.1 获取AJAx请求 4.1.2 综合实例：抓取简书百万用户个人主页 4.2 Selenium操作浏览器 4.2.1 驱动常规浏览器 4.2.2 驱动无界面浏览器 4.2.3 综合实例：模拟登录新浪微博并下载短视频 4.3 爬取移动端数据 4.3.2 综合实例：Fiddle实际应用一爬取大角虫漫画信息第5章统一架构与规范：网络爬虫框架 5.1 最流行的网络爬虫框架：Scrapy 5.1.1 安装须知与错误解决方案 5.1.2 Scrapy的组成与功能 5.2 综合实例：使用Scrapy构建观影指南 5.2.1 网络爬虫准备工作 5.2.2 编写Spider 5.21 3 处理Item 5.2.4 运行网络爬虫 5.2.5 数据分析 5.3 更易上手的网络爬虫框架：Pyspider 5.3.1 危0建Pyspider项目【示例5—1】利用Pyspider创建抓取煎蛋网项目并测试代码 5.3.2 运行Pyspider项目第6章反爬虫应对策略 6.1 设置Headers信息 6.1.1 User.Agent 6.1.2 C00kie 6.2 建立IP代理池 6.2.1 建立IP代理池的思路 6.2.2 建立IP代理池的步骤 6.3 验证码识别 6.3.1 识别简单的验证码【示例6.1】通过pytesseract库识别8个简单的验证码，并逐步提升准确率 6.3.2 识别汉字验证码 6.3.3 人工识别复杂验证码 6.3.4 利用Cookie绕过验证码第7章提升网络爬虫效率 7.1 网络爬虫策略 7.1.1 广度优先策略 7.1.2 深度优先策略 7.1.3 按网页权重决定爬取优先级 7.1.4 综合实例：深度优先和广度优先策略效率对比 (抓取慕课网实战课程地址) 7.2 提升网络爬虫的速度 7.2.1 多线程【示例7.1】使用4个线程同步抓取慕课网实战课程地址(基于深度优先策略) 7.2.2 多进程 7.2.3
标签
缩略图
书名	Python数据爬取技术与实战手册
副书名
原作名
作者	郭卡//戴亮
译者
编者	郭卡//戴亮
绘者
出版社	中国铁道出版社
商品编码（ISBN）	9787113245221
开本	16开
页数	304
版次	1
装订	平装
字数	402
出版时间	2018-08-01
首版时间	2018-08-01
印刷时间	2018-08-01
正文语种	汉
读者对象	普通大众
适用范围
发行范围	公开发行
发行模式	实体书
首发网站
连载网址
图书大类
图书小类
重量	534
CIP核字	2018102692
中图分类号	TP311.561-62
丛书名
印张	19.75
印次	1
出版地	北京
长	258
宽	188
高	13
整理
媒质
用纸
是否注音
影印版本
出版商国别	CN
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	评《[火影]蓦然终生》 (韩恶)恶作剧，又怎么样！赤道以北流浪着新西兰我是勇者，你信么？（综）一失足成千古恨甭和地球人一般见识一眼即是万年终于捣弄一长评献上... 回到未来 ④ 论张无忌和宋青书CP的可行性一个很穷的魔教教主的故事当时木兰花照影武侠梗来吧综彼岸花 RTA°你是我们的雪绒花冬天里的向日葵 57章后续来世回眸巴黎左岸~耳边有你的微笑黑子的篮球--影子少女人剑之恋：安阳剑魂评《黑光》菊花生菜重生之我的网络弯弯清月撩君心真人语音广告制作合成系统呱哩哗啦轻语音超级广播录音王 Psiloce Recorder RJV SoundRecorder KTV声控录音软件萧米高品质mp3录音机先锋电话录音管理系统 CDProtector NTI CD & DVD-Maker Platinum Edition 合金装备崛起:复仇游侠LMAO汉化组内核简体汉化补丁V4.0 喋血街头3 v1.12 单独破解补丁《百战天虫:革命》黄金版破解修正补丁联合军 v1.2 单独破解补丁《节奏小子:守护者传说》单独破解补丁《与狼同行》第1-2章单独破解补丁《世纪之石》v1.11 单独破解补丁乐高大电影:游戏版单独破解补丁《双截龙:彩虹》单独破解补丁 Tappy小猫逃跑 for Android v1.6 安卓版动漫英雄春季版 High 5 制霸青春暗战危城奇葩兄妹中国式关系发现者极品模王浴血重生余罪第一季安托万夫人