首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 Python大数据处理库PySpark实战
内容
内容推荐
我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。
本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。
本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。
作者简介
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。
目录
第1章 大数据时代
1.1 什么是大数据
1.1.1 大数据的特点
1.1.2 大数据的发展趋势
1.2 大数据下的分析工具
1.2.1 Hadoop
1.2.2 Hive
1.2.3 HBase
1.2.4 Apache Phoenix
1.2.5 Apache Drill
1.2.6 Apache Hudi
1.2.7 Apache Kylin
1.2.8 Apache Presto
1.2.9 ClickHouse
1.2.10 Apache Spark
1.2.11 Apache Flink
1.2.12 Apache Storm
1.2.13 Apache Druid
1.2.14 Apache Kafka
1.2.15 TensorFlow
1.2.16 PyTorch
1.2.17 Apache Superset
1.2.18 Elasticsearch
1.2.19 Jupyter Notebook
1.2.20 Apache Zeppelin
1.3 小结
第2章 大数据的瑞士军刀——Spark
2.1 Hadoop与生态系统
2.1.1 Hadoop概述
2.1.2 HDFS体系结构
2.1.3 Hadoop生态系统
2.2 Spark与Hadoop
2.2.1 Apache Spark概述
2.2.2 Spark和Hadoop比较
2.3 Spark核心概念
2.3.1 Spark软件栈
2.3.2 Spark运行架构
2.3.3 Spark部署模式
2.4 Spark基本操作
2.5 SQL in Spark
2.6 Spark与机器学习
2.6.1 决策树算法
2.6.2 贝叶斯算法
2.6.3 支持向量机算法
2.6.4 随机森林算法
2.6.5 人工神经网络算法
2.6.6 关联规则算法
2.6.7 线性回归算法
2.6.8 KNN算法
2.6.9 K-Means算法
2.7 小结
第3章 Spark实战环境设定
3.1 建立Spark环境前提
3.1.1 CentOS 7安装
3.1.2 FinalShell安装
3.1.3 PuTTY安装
3.1.4 JDK安装
3.1.5 Python安装
3.1.6 Visual Studio Code安装
3.1.7 PyCharm安装
3.2 一分钟建立Spark环境
3.2.1 Linux搭建Spark环境
3.2.2 Windows搭建Spark环境
3.3 建立Hadoop集群
3.3.1 CentOS配置
3.3.2 Hadoop伪分布模式安装
3.3.3 Hadoop完全分布模式安装
3.4 安装与配置Spark集群
3.5 安装与配置Hive
3.5.1 Hive安装
3.5.2 Hive与Spark集成
3.6 打造交互式Spark环境
3.6.1 Spark Shell
3.6.2 PySpark
3.6.3 Jupyter Notebook安装
3.7 小结
第4章 活用PySpark
4.1 Python 语法复习
4.1.1 Python基础语法
4.1.2 Python变量类型
4.1.3 Python运算符
4.1.4 Python控制语句
4.1.5 Python函数
4.1.6 Python模块和包
4.1.7 Python面向对象
4.1.8 Python异常处理
4.1.9 Python JSON处理
4.1.10 Python日期处理
4.2 用PySpark建立第一个Spark RDD
4.2.1 PySpark Shell 建立RDD
4.2.2 VSCode编程建立RDD
4.2.3 Jupyter 编程建立RDD
4.3 RDD的操作与观察
4.3.1 first操作
4.3.2 max操作
4.3.3 sum操作
4.3.4 take操作
4.3.5 top操作
4.3.6 count操作
4.3.7 collect操作
4.3.8 collectAsMap操作
4.3.9 countByKey操作
4.3.10 countByValue操作
4.3.11 glom操作
4.3.12 coalesce操作
4.3.13 combineByKey操作
4.3.14 distinct操作
4.3.15 filter操作
4.3.16 flatMap操作
4.3.17 flatMapValues操作
4.3.18 fold操作
4.3.19 foldByKey操作
4.3.20 foreach操作
4.3.21 foreachPartition操作
4.3.22 map操作
4.3.23 mapPartitions操作
4.3.24 mapPartitionsWithIndex操作
4.3.25 mapValues操作
4.3.26 groupBy操作
4.3.27 groupByKey操作
4.3.28 keyBy操作
4.3.29 keys操作
4.3.30 zip操作
4.3.31 zipWithIndex操作
4.3.32 values操作
4.3.33 union操作
4.3.34 takeOrdered操作
4.3.35 takeSample操作
4.3.36 subtract操作
4.3.37 subtractByKey操作
4.3.38 stats操作
4.3.39 sortBy操作
4.3.40 sortByKey操作
4.3.41 sample操作
4.3.42 repartition操作
4.3.43 reduce操作
4.3.44 reduceByKey操作
4.3.45 randomSplit操作
4.3.46 lookup操作
4.3.47 join操作
4.3.48 intersection操作
4.3.49 fullOuterJoin操作
4.3.50 leftOuterJoin与rightOuterJoin操作
4.3.51 aggregate操作
4.3.52 aggregateByKey操作
4.3.53 cartesian操作
4.3.54 cache操作
4.3.55 saveAsTextFile操作
4.4 共享变数
4.4.1 广播变量
4.4.2 累加器
4.5 DataFrames与Spark SQL
4.5.1 DataFrame建立
4.5.2 Spark SQL基本用法
4.5.3 DataFrame基本操作
4.6
导语
PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,最后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。
标签
缩略图
书名 Python大数据处理库PySpark实战
副书名
原作名
作者 汪明
译者
编者
绘者
出版社 清华大学出版社
商品编码(ISBN) 9787302575085
开本 16开
页数 310
版次 1
装订 平装
字数 512
出版时间 2021-03-01
首版时间 2021-03-01
印刷时间 2021-03-01
正文语种
读者对象 大众
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 597
CIP核字 2021026655
中图分类号 TP274
丛书名
印张 20
印次 1
出版地 北京
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/7 18:03:25