首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 Python大数据分析
内容
内容推荐
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
目录
第1章 Python数据科学堆栈
1.1 概述
1.2 Python库和软件包
1.2.1 IPython:一个功能强大的交互式shell
1.2.2 Jupyter Notebook
1.2.3 使用IPython还是Jupyter
1.2.4 Numpy
1.2.5 Scipy
1.2.6 Matplotlib
1.2.7 Pandas
1.3 使用Pandas
1.3.1 读取数据
1.3.2 数据操作
1.4 数据类型转换
1.5 聚合和分组
1.6 从Pandas导出数据
1.7 Pandas可视化
1.8 总结
第2章 统计数据可视化
2.1 概述
2.2 可视化图表
2.3 图表的组件
2.4 Seaborn
2.5 图的类型
2.5.1 折线图(Line graph)
2.5.2 散点图(Scatter plot)
2.5.3 直方图(Histogram)
2.5.4 箱线图(Boxplot)
2.6 Pandas DataFrame
2.7 修改图的组件
2.7.1 配置轴对象的标题和标签
2.7.2 修改线条颜色和样式
2.7.3 修改图的大小
2.8 导出图像
2.9 总结
第3章 使用大数据框架
3.1 概述
3.2 Hadoop
3.2.1 使用HDFS操控数据
3.3 Spark数据处理平台
3.3.1 Spark SOL以及Pandas DataFrame
3.4 Parquet文件
3.4.1 编写Parquet文件
3.4.2 使用Parquet和Partitions提高分析性能
3.5 处理非结构化数据
3.6 总结
第4章 Spark DataFrame
4.1 概述
4.2 使用Spark DataFrame使用方法
4.3 从Spark DataFrame中写入输出
4.4 探索和了解Spark DataFrame更多特点
4.5 使用Spark DataFrame对数据进行相关操作
4.6 Spark DataFrame绘制图形
4.7 总结
第5章 处理缺失值以及相关性分析
5.1 概述
5.2 设置Jupyter Notebook
5.3 缺失值
5.4 处理Spark DataFrame中的缺失值
5.5 相关性
5.6 总结
第6章 进行探索性数据分析
6.1 概述
6.2 定义商业问题
6.2.1 问题识别
6.2.2 需求收集
6.2.3 数据管道和工作流
6.2.4 识别可测量的指标
6.2.5 文档和展示
6.3 将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)
6.3.1 数据采集
6.3.2 数据生成分析
6.3.3 KPI可视化
6.3.4 特征重要性
6.4 数据科学项目生命周期的结构化方法
6.4.1 第一阶段:理解和定义业务问题
6.4.2 第二阶段:数据访问与发现
6.4.3 第三阶段:数据工程和预处理
6.4.4 第四阶段:模型开发
6.5 总结
第7章 大数据分析中的再现性
7.1 概述
7.2 Jupyter Notebooks的再现性
7.2.1 业务问题介绍
7.2.2 记录方法和工作流程
7.2.3 数据管道
7.2.4 相关性
7.2.5 使用源代码版本控制
7.2.6 模块化过程
7.3 以可复制的方式收集数据
7.3.1 标记单元格和代码单元格中的功能
7.3.2 解释标记语言中的业务问题
7.3.3 提供数据源的详细介绍
7.3.4 解释标记中的数据属性
7.4 进行编码实践和标准编写
7.4.1 环境文件
7.4.2 编写带有注释的可读代码
7.4.3 工作流程的有效分割
7.4.4 工作流文档
7.5 避免重复
7.5.1 使用函数和循环优化代码
7.5.2 为代码/算法重用开发库/包
7.6 总结
第8章 创建完整的分析报告
8.1 概述
8.2 Spark可从不同的数据源读取数据
8.3 在Spark DataFrame上进行SQL操作
8.4 生成统计测量值
8.5 总结
附录
标签
缩略图
书名 Python大数据分析
副书名
原作名
作者 (美)伊万·马林
译者 译者:雷依冰//张晨曦
编者
绘者
出版社 北京航空航天大学出版社
商品编码(ISBN) 9787512440715
开本 16开
页数 233
版次 1
装订 平装
字数 230
出版时间 2023-04-01
首版时间 2023-04-01
印刷时间 2023-04-01
正文语种
读者对象 普通大众
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 342
CIP核字 2023056711
中图分类号 TP311.561
丛书名
印张 15.5
印次 1
出版地 北京
239
171
13
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/7 7:07:38