首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 数据采集与处理(高等职业教育人工智能与大数据专业群人才培养系列教材)
内容
内容推荐
本书基于Python 3.10版本,以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识,主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等,通过多个实战任务的练习,让读者能最大限度地掌握Python网络爬虫的核心技术。为了方便读者学习,本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。
本书可作为高等院校计算机相关专业程序设计课程教材,也可供从事计算机爬虫应用开发的相关人员使用。
目录
项目1 Python基础实战
任务1.1 Python开发环境搭建
1.1.1 在Windows系统中安装Python
1.1.2 在Linux系统中安装Python
1.1.3 安装PyCharm集成开发环境
任务1.2 从HTML文档中提取特定字符串
1.2.1 数值类型与变量
1.2.2 字符串
1.2.3 运算符
1.2.4 流程控制
任务1.3 用列表、字典等组织数据
1.3.1 列表(list)
1.3.2 元组(tuple)
1.3.3 字典(dict)
1.3.4 集合(set)
1.3.5 函数
任务1.4 基于正则表达式提取图片链接文本
1.4.1 模块和包
1.4.2 异常处理
1.4.3 正则表达式
任务1.5 从JSON文件中加载数据
1.5.1 类与对象
1.5.2 文件与目录操作
1.5.3 JSON
项目2 网页数据采集实战
任务2.1 利用工具爬取一个电商网页
2.1.1 爬虫的定义
2.1.2 爬虫的类型
2.1.3 与爬虫相关的网站文件
2.1.4 反爬虫应对策略
2.1.5 爬虫的合法性
任务2.2 基于urllib库爬取一个电商网页
任务2.3 urllib处理发送GET/POST请求
任务2.4 请求头伪装与代理服务器应用
2.4.1 请求头伪装
2.4.2 代理服务器
任务2.5 网络异常处理
2.5.1 URLError
2.5.2 HTTPError
任务2.6 基于requests库爬取电商网页
项目3 网页数据解析实战
任务3.1 HTML基础
3.1.1 HTML网页的结构
3.1.2 Chrome浏览器的DevTools
任务3.2 基于正则表达式的网页数据解析
任务3.3 XPath应用
3.3.1 XPath简介
3.3.2 lxml简介
任务3.4 Beautiful Soup解析数据
任务3.5 JSON数据解析
项目4 并发技术实战
任务4.1 基于进程的并发爬虫
4.1.1 并发原理
4.1.2 进程(Process)
4.1.3 Python的多进程并发编程
任务4.2 基于queue模块的多线程爬虫
4.2.1 线程(Thread)
4.2.2 Python的多线程并发编程
任务4.3 基于协程的并发爬虫
任务4.4 历史天气并发爬取
项目5 动态内容采集实战
任务5.1 动态网页基础
任务5.2 Selenium的安装配置
任务5.3 基于Selenium的动态网页爬取
任务5.4 基于Selenium的模拟登录
任务5.5 验证码的识别处理
5.5.1 验证码基础
5.5.2 Pytesseract简介
5.5.3 PIL简介
任务5.6 基于Selenium的招聘职位获取
项目6 爬虫数据存储实战
任务6.1 MongoDB基础
6.1.1 MongoDB的安装
6.1.2 MongoDB的基本操作
任务6.2 基于PyMongo的爬虫数据存储
任务6.3 Redis数据库基础
6.3.1 Redis的安装
6.3.2 Redis的操作命令
任务6.4 基于redis模块的爬虫数据存储
项目7 Scrapy爬虫框架实战
任务7.1 Scrapy爬虫框架基础
7.1.1 Scrapy爬虫框架简介
7.1.2 Scrapy项目创建
7.1.3 Scrapy常用命令
任务7.2 定义Spider爬取斗鱼直播平台数据
7.2.1 Item类简介
7.2.2 Spider类简介
任务7.3 自定义爬虫中间件爬取众图网数据
7.3.1 Scrapy的settings文件
7.3.2 Downloader Middlewares
任务7.4 CrawlSpider自动爬取数据
7.4.1 CrawlSpider
7.4.2 Rule
7.4.3 LinkExtractor
任务7.5 应用Item Pipeline进行后期数据处理
任务7.6 综合实训——百度科学百科数据爬取
标签
缩略图
书名 数据采集与处理(高等职业教育人工智能与大数据专业群人才培养系列教材)
副书名
原作名
作者
译者
编者 刘珍//章红燕
绘者
出版社 电子工业出版社
商品编码(ISBN) 9787121468841
开本 16开
页数 242
版次 1
装订 平装
字数 354
出版时间 2024-01-01
首版时间 2024-01-01
印刷时间 2024-01-01
正文语种
读者对象 高职
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 442
CIP核字 2023238205
中图分类号 TP274
丛书名
印张 15.75
印次 1
出版地 北京
261
185
12
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/9 14:55:02