首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 Scrapy网络爬虫开发实战
内容
内容推荐
本书介绍如何学习和使用流行的Scrapy框架开发网络爬虫应用,主要内容使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,Scrapy Playwright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。
本书适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目,也适用于对Python网络爬虫领域感兴趣的人士参考阅读。
目录
第1章 网络爬虫快速入门
1.1 各种网络爬虫
1.1.1 通用爬虫
1.1.2 定向爬虫
1.2 网络爬虫基本技术
1.3 Windows命令行
1.4 上手Scrapy网络爬虫开发
1.5 本章小结
第2章 Python开发快速入门
2.1 变量
2.2 注释
2.3 简单数据类型
2.3.1 数值
2.3.2 字符串
2.3.3 数组
2.4 字面值
2.5 控制流
2.5.1 if语句
2.5.2 循环
2.6 列表
2.7 元组
2.8 集合
2.9 字典
2.10 函数
2.11 模块
2.12 检查字符串是否包含子字符串
2.13 面向对象编程
2.14 泛型
2.15 日志记录
2.16 数据库
2.17 本章小结
第3章 使用Python开发网络爬虫
3.1 使用BeautifulSoup实现定向采集
3.2 URL基础
3.2.1 URI
3.2.2 解析相对地址
3.2.3 DNS解析
3.3 网络爬虫抓取原理
3.4 爬虫架构
3.4.1 基本架构
3.4.2 分布式爬虫架构
3.4.3 垂直爬虫架构
3.5 下载网页
3.5.1 HTTP
3.5.2 HTML文档
3.5.3 使用curl命令下载网络资源
3.5.4 使用wget命令下载网页
3.5.5 下载静态网页
3.5.6 使用Selenium下载动态内容
3.5.7 重试
3.6 下载图片
3.7 网络爬虫的遍历与实现
3.8 robots协议
3.9 连接池
3.10 URL地址查新
3.10.1 Redis数据库
3.10.2 布隆过滤器
3.11 抓取RSS
3.12 网页更新
3.13 进度条
3.14 垂直行业抓取
3.15 抓取限制的应对方法
3.15.1 模拟浏览器访问
3.15.2 使用代理IP
3.15.3 抓取需要登录的网页
3.16 保存信息
3.16.1 SQLite数据库
3.16.2 MySQL数据库
3.16.3 MongoDB数据库
3.16.4 存入Elasticsearch搜索引擎
3.17 本章小结
第4章 从互联网提取信息
4.1 识别网页的编码
4.1.1 二进制流的编码
4.1.2 识别编码的整体流程
4.2 正则表达式
4.3 结构化信息的提取
4.3.1 解析JSON
4.3.2 解析XML
4.3.3 XML接口
4.3.4 lxml处理网页
4.3.5 使用XPath提取信息
4.3.6 在Chrome浏览器中查找Selenium WebDriver的XPath
4.3.7 CSS选择器
4.3.8 使用Parsel
4.3.9 提取文本
4.3.10 网页正文提取
4.4 从文件提取信息
4.5 本章小结
第5章 使用Scrapy开发爬虫
5.1 一个示例爬虫的演练
5.2 Scrapy Playwright指南:渲染和抓取动态JS网站
5.3 将抓取的数据保存到SQLite数据库
5.4 将抓取的数据保存到MySQL数据库
5.5 将抓取的数据保存到Postgres数据库
5.6 Scrapyd:部署、调度和运行Scrapy爬虫
5.7 ScrapyCloud托管爬虫
5.8 Twisted框架
5.9 本章小结
第6章 分布式爬虫开发
6.1 简单的Celery任务
6.2 从任务进行分布式抓取
6.3 本章小结
第7章 开发网络爬虫用户界面
7.1 Tkinter简介
7.2 网络爬虫图形用户界面
7.3 本章小结
第8章 案例分析
8.1 影视采集器
8.2 暗网爬虫
8.3 本章小结
标签
缩略图
书名 Scrapy网络爬虫开发实战
副书名
原作名
作者
译者
编者 罗刚
绘者
出版社 清华大学出版社
商品编码(ISBN) 9787302658580
开本 16开
页数 173
版次 1
装订 平装
字数 290
出版时间 2024-06-01
首版时间 2024-06-01
印刷时间 2024-06-01
正文语种
读者对象 本科及以上
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 344
CIP核字 2024060787
中图分类号 TP311.561
丛书名
印张 11.5
印次 1
出版地 北京
259
186
9
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/10 9:23:28