首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 Python和PySpark数据分析(数据科学与大数据技术)
内容
内容推荐
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。
本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。
作者简介
乔纳森·里乌,作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。
目录
第1章 介绍
1.1 什么是PySpark
1.1.1 从头开始:什么是Spark
1.1.2 PySpark=Spark+Python
1.1.3 为什么选择PySpark
1.2 PySpark的工作原理
1.2.1 使用集群管理器进行物理规划
1.2.2 懒惰的主管成就工厂的高效
1.3 你将从本书学到什么
1.4 我们将如何开始
1.5 本章小结
第Ⅰ部分 介绍:PySpark的第一步
第2章 使用PySpark编写的第一个数据处理程序
2.1 设置pysparkshell
2.1.1 SparkSession入口点
2.1.2 配置PySpark的日志级别
2.2 映射程序
2.3 采集和探索:为数据转换奠定基础
2.3.1 用spark.read将数据读入数据帧
2.3.2 从结构到内容:使用show()探索数据帧
2.4 简单的列转换:将句子拆解为单词列表
2.4.1 使用select()选择特定的列
2.4.2 转换列:将字符串拆分为单词列表
2.4.3 重命名列:alias和withColumnRenamed
2.4.4 重塑数据:将list分解成行
2.4.5 处理单词:更改大小写并删除标点符号
2.5 筛选记录
2.6 本章小结
2.7 扩展练习
第3章 提交并扩展你的第一个PySpark程序
3.1 对记录进行分组:计算词频
3.2 使用orderBy对结果排序
3.3 保存数据帧中的数据
3.4 整合所有内容:计数
3.4.1 使用PySpark的导入约定简化依赖
3.4.2 通过方法链简化程序
3.5 使用spark-submit以批处理模式启动程序
3.6 本章未涉及的内容
3.7 扩展词频程序
3.8 本章小结
3.9 扩展练习
第4章 使用pyspark.sql分析表格数据
4.1 什么是表格数据
4.2 使用PySpark分析和处理表格数据
4.3 在PySpark中读取和评估带分隔符的数据
4.3.1 第一次使用专门处理CSV文件的SparkReader
4.3.2 自定义SparkReader对象来读取CSV数据文件
4.3.3 探索数据世界的轮廓
……
第Ⅱ部分 进级:将你的想法转化为代码
第Ⅲ部分 使用PySpark进行机器学习
附录A 习题答案
附录B 安装PySpark
附录C 一些有用的Python内容
标签
缩略图
书名 Python和PySpark数据分析(数据科学与大数据技术)
副书名
原作名
作者 (加)乔纳森·里乌
译者 译者:殷海英
编者
绘者
出版社 清华大学出版社
商品编码(ISBN) 9787302645368
开本 16开
页数 402
版次 1
装订 平装
字数 606
出版时间 2023-10-01
首版时间 2023-10-01
印刷时间 2023-10-01
正文语种
读者对象 普通大众
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 732
CIP核字 2023169057
中图分类号 TP311.561
丛书名
印张 26.25
印次 1
出版地 北京
240
170
22
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/10 23:08:48