内容推荐 本书是普通高等教育“十四五”大数据系列教材之一,以大数据技术为中心,系统论述了大数据处理生态系统的核心开发技术。全书共11章,主要内容包括大数据处理框架Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、Hadoop的发展与优化、分布式数据库HBase、数据仓库Hive、基于内存的分布式计算框架Spark、Spark核心编程、Spark生态系统、流式数据处理引擎Flink。本书结合内容融入思政元素,强调目标性,强化实践性。 本书适合作为普通高等院校大数据技术与应用、数据科学与大数据技术、计算机、软件工程、电子信息等专业大数据技术课程教材,也可作为相关专业领域技术人员的参考书。 目录 第1章 绪论 1.1 大数据发展背景 1.2 大数据基本概念与特点 1.2.1 大数据基本概念 1.2.2 大数据的特点 1.3 大数据处理的关键技术 1.3.1 数据采集 1.3.2 数据存储 1.3.3 分析、建模、计算 1.3.4 结果展示 1.3.5 数据安全与隐私保护 1.4 大数据处理框架 1.4.1 并行计算面临的挑战 1.4.2 大数据并行处理系统 1.4.3 大数据并行处理框架的发展历程 1.5 大数据应用 1.5.1 大数据产业构建 1.5.2 大数据应用场景 1.5.3 大数据行业发展趋势 小结 习题 思政小讲堂 第2章 大数据处理框架Hadoop 2.1 Hadoop概述 2.1.1 Hadoop的概念 2.1.2 Hadoop发展史 2.1.3 Hadoop版本 2.2 Hadoop的体系结构和生态系统 2.2.1 Hadoop的体系结构 2.2.2 Hadoop生态系统 2.3 Hadoop的特点、应用与发展趋势 2.3.1 Hadoop的特点 2.3.2 Hadoop的应用现状和前景 2.4 Hadoop集群搭建和安装配置 2.4.1 Hadoop集群搭建概述 …… 第3章 分布式文件系统HDFS 第4章 分布式计算框架 第5章 Hadoop的发展与优化 第6章 分布式数据库HBase 第7章 数据仓库Hive 第8章 基于内存的分布式计算框架Spark 第9章 Spark核心编程 第10章 Spark生态系统 第11章 流式数据处理引擎Flink 参考文献 |