首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 Spark大数据算法
内容
内容推荐
Apache Spark不仅速度快,易于使用,还提供了丰富的分析能力和多语言支持,掌握这个集群计算框架的实用知识已经成为数据工程师和数据科学家的必备技能。利用这本实用指南,想要了解Spark的人能从中学到实用的PySpark算法和示例。
每一章中,本书作者会向你展示如何用一组Spark转换和算法解决一个数据问题。你会了解如何应对涉及ETL、设计模式、机器学习算法、数据分区和基因组分析的问题。每个技巧都提供了利用PySpark驱动器的PySpark算法和shell脚本。
作者简介
马哈默德·帕瑞斯安(Mahmoud Parsian),计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java(服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等书(均由Apress出版)。
目录

前言
第Ⅰ部分 基础知识
第1章 Spark和PySpark简介
1.1 为什么使用Spark完成数据分析
1.1.1 Spark生态系统
1.1.2 Spark架构
1.2 PySpark的能力
1.3 Spark数据抽象
1.3.1 RDD示例
1.3.2 Spark RDD操作
1.3.3 DataFrame示例
1.4 使用PySpark Shell
1.4.1 启动PySpark Shell
1.4.2 由集合创建RDD
1.4.3 聚合和合并键的值
1.4.4 过滤RDD的元素
1.4.5 对类似的键分组
1.4.6 聚合类似键的值
1.5 使用 DataFrame的ETL示例
1.5.1 抽取
1.5.2 转换
1.5.3 加载
1.6 小结
第2章 转换实战
2.1 DNA碱基计数示例
2.1.1 DNA碱基计数问题
2.1.2 FASTA格式
2.1.3 示例数据
2.2 DNA碱基计数解决方案1
2.2.1 步骤1:由输入创建一个RDD[String]
2.2.2 步骤2:定义一个映射器函数
2.2.3 步骤3:得出DNA字母频度
2.2.4 解决方案1的优缺点
2.3 DNA碱基计数解决方案2
2.3.1 步骤1:由输入创建一个RDD[String]
2.3.2 步骤2:定义一个映射器函数
2.3.3 步骤3:得出 DNA字母频度
2.3.4 解决方案2的优缺点
2.4 DNA碱基计数解决方案3
2.4.1 mapPartitions()转换
2.4.2 步骤1:由输入创建一个RDD[String]
2.4.3 步骤2:定义函数处理一个分区
2.4.4 步骤3:对各个分区应用自定义函数
2.4.5 解决方案3的优缺点
2.5 小结
第3章 映射器转换
3.1 数据抽象和映射器
3.2 转换是什么
3.2.1 懒转换
3.2.2 map()转换
……
第Ⅱ部分 处理数据
第Ⅲ部分 数据设计模式
标签
缩略图
书名 Spark大数据算法
副书名
原作名
作者 (美)马哈默德·帕瑞斯安
译者 译者:苏金国
编者
绘者
出版社 中国电力出版社
商品编码(ISBN) 9787519887728
开本 16开
页数 485
版次 1
装订 平装
字数 665
出版时间 2024-05-01
首版时间 2024-05-01
印刷时间 2024-05-01
正文语种
读者对象 普通大众
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 720
CIP核字 2024067332
中图分类号 TP274
丛书名
印张 31.5
印次 1
出版地 北京
232
177
22
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数 3000
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/6 2:55:32