首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 大数据处理技术基础与应用(Hadoop+Spark)/大数据技术与应用丛书
内容
内容推荐
本书是一本介绍大数据处理技术的专业图书,力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程,从实践的角度介绍Hadoop和Spark的安装部署、编程基础和使用方法;然后结合具体案例,重点介绍Spark RDD、Spark SQL、Spark Streaming、Spark Graph Frame等的应用思路和方法,并通过具体代码,让读者更好地感受大数据处理技术的效果。
本书既可以作为高等院校计算机、大数据等相关专业的教材,也可以作为大数据技术相关从业人员的参考书,还可作为零基础人员学习Hadoop和Spark技术的入门图书。
目录
第1章 大数据技术概述
1.1 大数据技术简介
1.1.1 大数据的发展
1.1.2 大数据的流程
1.2 大数据的主流软件
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.2.4 Hadoop与Spark对比
1.3 大数据的主流编程语言
1.3.1 Python语言
1.3.2 Java语言
1.3.3 Scala语言
1.4 本章小结
第2章 Hadoop部署安装与使用
2.1 Linux基本操作
2.1.1 Linux简介
2.1.2 新建与删除用户
2.1.3 目录权限的查看与修改
2.1.4 Linux的常用命令
2.1.5 任务实现
2.2 搭建Hadoop完全分布式集群
2.2.1 关闭防火墙
2.2.2 安装SSH
2.2.3 安装Xshell及Xftp(可选)
2.2.4 安装Java
2.2.5 安装Hadoop
2.2.6 克隆主机
2.2.7 安装完全分布式模式
2.3 查看Hadoop集群的基本信息
2.3.1 查询存储系统信息
2.3.2 查询计算资源信息
2.4 本章小结
第3章 HDFS基本操作
3.1 HadoopShell命令操作HDFS
3.1.1 HDFS简介
3.1.2 HDFSShell命令简介
3.1.3 目录操作
3.1.4 文件操作
3.1.5 利用Web界面管理HDFS
3.1.6 任务实现
3.2 Java操作HDFS
3.2.1 在Eclipse中创建HDFS交互Java项目
3.2.2 在Java项目中编写Java应用程序
3.2.3 编译运行应用程序与打包文件
3.2.4 任务实现
3.2.5 文件常用操作的参考代码
3.3 本章小结
第4章 MapReduce基本原理与编程实现
4.1 MapReduce基本原理
4.1.1 MapReduce简介
4.1.2 MapReduce编程核心思想
4.1.3 MapReduce编程规范
4.1.4 MapReduce的输入格式
4.1.5 MapReduce的输出格式
4.1.6 分区
4.1.7 合并
4.2 编程实现——按访问次数排序
4.2.1 编程思路与处理逻辑
4.2.2 核心模块代码
4.2.3 任务实现
4.3 本章小结
第5章 Hive部署与编程基础
5.1 搭建伪分布式Hive
5.1.1 Hive概述
5.1.2 Hive安装和配置
5.2 Hive基本操作
5.2.1 数据库基本操作
5.2.2 数据表基本操作
5.2.3 数据基本操作
5.3 编程实现——部门工资统计
5.4 本章小结
第6章 Spark部署与编程基础
6.1 Spark的运行原理
6.1.1 集群架构
6.1.2 运行流程
6.1.3 核心数据集RDD
6.1.4 核心原理
6.2 Scala安装与使用
6.2.1 Scala语言概述
6.2.2 Scala特性
6.2.3 环境设置与安装
6.3 Spark安装与使用
6.3.1 环境搭建前的准备
6.3.2 Spark的安装与配置
6.3.3 在PySpark中运行代码
6.3.4 编程实现——Spark独立应用程序
6.4 本章小结
第7章 SparkRDD:弹性分布式数据集
7.1 RDD概述
7.2 RDD编程
7.2.1 RDD编程基础
7.2.2 键值对RDD
7.2.3 数据读写操作
7.3 编程实现
7.3.1 任务1:取出排名前五的订单支付金额
7.3.2 任务2:文件排序
7.3.3 任务3:二次排序
7.4 本章小结
第8章 SparkSQL:结构化数据文件处理
8.1 SparkSQL概述
8.1.1 SparkSQL简介
8.1.2 SparkSQLCLI配置
8.1.3 SparkSQL与Shell交互
8.2 DataFrame基础操作
8.2.1 创建DataFrame对象
8.2.2 DataFrame查看数据
8.2.3 DataFrame查询操作
8.2.4 DataFrame输出操作
8.3 SparkSQL与MySQL的交互
8.4 本章小结
第9章 SparkStreaming:实时计算框架
9.1 SparkStreaming概述
9.1.1 SparkStreaming应用场景
9.1.2 流计算概述
9.1.3 SparkStreaming特性分析
9.2 DStream编程模型基础
9.2.1 DStream概述
9.2.2 基本输入源
9.2.3 转换操作
9.2.4 输出操作
9.3 编程实现——流数据过滤与分析
9.4 本章小结
第10章 SparkGraphFrames:图计算
10.1 图计算概述
10.1.1 图的基本概念
10.1.2 图计算的应用
10.1.3 GraphFrames简介
10.2 GraphFrames编程模型基础
10.2.1 创建实例化图
10.2.2 视图和图操作
10.2.3 保存和加载图
10.3 编程实现——基于GraphFrames的网页排名
10.3.1 准备数据集
10.3.2 GraphFrames实现算法
10.3.3 使用PageRank进行网页排名
10.4 本章小结
第11章 大数据生态常用工具介绍
11.1 Flume的安装与使用
11.1.1 安装及配置Flume
11.1.2 实例分析
11.2 Kafka的安装与使用
11.2.1 Kafka相关概念
11.2.2 安装Kafka
11.2.3 实例分析
11.3 Sqoop的安装与使用
11.3.1 安装及配置Sqoop
11.3.2 添加MySQL驱动程序
11.3.3 测试Sqoop与MySQL的连接
11.4 编程实现——编写Spark程序使用Kafka数据
标签
缩略图
书名 大数据处理技术基础与应用(Hadoop+Spark)/大数据技术与应用丛书
副书名
原作名
作者
译者
编者 许桂秋//孙海民//胡贵恒
绘者
出版社 人民邮电出版社
商品编码(ISBN) 9787115637680
开本 16开
页数 237
版次 1
装订 平装
字数 358
出版时间 2024-02-01
首版时间 2024-02-01
印刷时间 2024-02-01
正文语种
读者对象 本科及以上
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 388
CIP核字 2024023648
中图分类号 TP274
丛书名
印张 15.5
印次 1
出版地 北京
260
185
10
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/17 13:37:34