Apache Spark不仅速度快,易于使用,还提供了丰富的分析能力和多语言支持,掌握这个集群计算框架的实用知识已经成为数据工程师和数据科学家的必备技能。利用这本实用指南,想要了解Spark的人能从中学到实用的PySpark算法和示例。
每一章中,本书作者会向你展示如何用一组Spark转换和算法解决一个数据问题。你会了解如何应对涉及ETL、设计模式、机器学习算法、数据分区和基因组分析的问题。每个技巧都提供了利用PySpark驱动器的PySpark算法和shell脚本。
图书 | Spark大数据算法 |
内容 | 内容推荐 Apache Spark不仅速度快,易于使用,还提供了丰富的分析能力和多语言支持,掌握这个集群计算框架的实用知识已经成为数据工程师和数据科学家的必备技能。利用这本实用指南,想要了解Spark的人能从中学到实用的PySpark算法和示例。 每一章中,本书作者会向你展示如何用一组Spark转换和算法解决一个数据问题。你会了解如何应对涉及ETL、设计模式、机器学习算法、数据分区和基因组分析的问题。每个技巧都提供了利用PySpark驱动器的PySpark算法和shell脚本。 作者简介 马哈默德·帕瑞斯安(Mahmoud Parsian),计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java(服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等书(均由Apress出版)。 目录 序 前言 第Ⅰ部分 基础知识 第1章 Spark和PySpark简介 1.1 为什么使用Spark完成数据分析 1.1.1 Spark生态系统 1.1.2 Spark架构 1.2 PySpark的能力 1.3 Spark数据抽象 1.3.1 RDD示例 1.3.2 Spark RDD操作 1.3.3 DataFrame示例 1.4 使用PySpark Shell 1.4.1 启动PySpark Shell 1.4.2 由集合创建RDD 1.4.3 聚合和合并键的值 1.4.4 过滤RDD的元素 1.4.5 对类似的键分组 1.4.6 聚合类似键的值 1.5 使用 DataFrame的ETL示例 1.5.1 抽取 1.5.2 转换 1.5.3 加载 1.6 小结 第2章 转换实战 2.1 DNA碱基计数示例 2.1.1 DNA碱基计数问题 2.1.2 FASTA格式 2.1.3 示例数据 2.2 DNA碱基计数解决方案1 2.2.1 步骤1:由输入创建一个RDD[String] 2.2.2 步骤2:定义一个映射器函数 2.2.3 步骤3:得出DNA字母频度 2.2.4 解决方案1的优缺点 2.3 DNA碱基计数解决方案2 2.3.1 步骤1:由输入创建一个RDD[String] 2.3.2 步骤2:定义一个映射器函数 2.3.3 步骤3:得出 DNA字母频度 2.3.4 解决方案2的优缺点 2.4 DNA碱基计数解决方案3 2.4.1 mapPartitions()转换 2.4.2 步骤1:由输入创建一个RDD[String] 2.4.3 步骤2:定义函数处理一个分区 2.4.4 步骤3:对各个分区应用自定义函数 2.4.5 解决方案3的优缺点 2.5 小结 第3章 映射器转换 3.1 数据抽象和映射器 3.2 转换是什么 3.2.1 懒转换 3.2.2 map()转换 …… 第Ⅱ部分 处理数据 第Ⅲ部分 数据设计模式 |
标签 | |
缩略图 | ![]() |
书名 | Spark大数据算法 |
副书名 | |
原作名 | |
作者 | (美)马哈默德·帕瑞斯安 |
译者 | 译者:苏金国 |
编者 | |
绘者 | |
出版社 | 中国电力出版社 |
商品编码(ISBN) | 9787519887728 |
开本 | 16开 |
页数 | 485 |
版次 | 1 |
装订 | 平装 |
字数 | 665 |
出版时间 | 2024-05-01 |
首版时间 | 2024-05-01 |
印刷时间 | 2024-05-01 |
正文语种 | 汉 |
读者对象 | 普通大众 |
适用范围 | |
发行范围 | 公开发行 |
发行模式 | 实体书 |
首发网站 | |
连载网址 | |
图书大类 | |
图书小类 | |
重量 | 720 |
CIP核字 | 2024067332 |
中图分类号 | TP274 |
丛书名 | |
印张 | 31.5 |
印次 | 1 |
出版地 | 北京 |
长 | 232 |
宽 | 177 |
高 | 22 |
整理 | |
媒质 | |
用纸 | |
是否注音 | |
影印版本 | |
出版商国别 | |
是否套装 | |
著作权合同登记号 | |
版权提供者 | |
定价 | |
印数 | 3000 |
出品方 | |
作品荣誉 | |
主角 | |
配角 | |
其他角色 | |
一句话简介 | |
立意 | |
作品视角 | |
所属系列 | |
文章进度 | |
内容简介 | |
作者简介 | |
目录 | |
文摘 | |
安全警示 | 适度休息有益身心健康,请勿长期沉迷于阅读小说。 |
随便看 |
|
兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。