首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 大数据分析与挖掘(数据科学与大数据技术专业系列规划教材)
内容
内容推荐
石胜飞编著的《大数据分析与挖掘》是大数据分析与挖掘领域的入门教材,全书共6章,内容主要涵盖大数据分析与挖掘过程中用到的基本算法,目的是通过算法原理的介绍,使学生能更高效地将它们运用于数据分析与挖掘的实践中。第1章主要介绍大数据分析与挖掘技术发展与应用的特点,以及三种主流的工具。第2章主要讲解数据特征分析与预处理,详细介绍了数据各种特征的描述方法、预处理技术,以及Spark机器学习库中的数据预处理功能。第3章详细介绍频繁模式挖掘的几种经典算法,并结合Sparlk机器学习库进行实践,对序列模式挖掘进行了讲解。第4章详细介绍几种基本的分类与回归算法,并结合Skleam和Spark机器学习库进行实践。第5章详细介绍主流的聚类算法。第6章综合运用多种数据挖掘算法进行异常检测。
本书可作为高等院校数据科学与大数据技术、计算机科学与技术等相关专业的本科生教材,也可作为大数据分析与挖掘技术初学者的参考书。
作者简介
石胜飞 博士,哈尔滨工业大学计算机科学与技术学院副教授,ACM会员,中国计算机学会会员。研究领域:数据挖掘、海量数据管理、CPS数据管理等。
目录
第1章 绪论
1.1 大数据分析与挖掘简介
1.2 大数据应用及挑战
1.3 大数据分析与挖掘主要技术
1.4 大数据分析与挖掘工具
1.4.1 Sklearn
1.4.2 Spark ML
1.4.3 华为云的机器学习服务
第2章 数据特征分析与预处理
2.1 数据类型
2.1.1 数据集类型
2.1.2 数据属性的类型
2.2 数据的描述性特征
2.2.1 描述数据集中趋势的度量
2.2.2 描述数据离中趋势的度量
2.2.3 数据分布形态的度量
2.2.4 数据分布特征的可视化
2.3 数据的相关分析
2.3.1 相关分析
2.3.2 卡方(χ2)检验
2.4 数据预处理
2.4.1 数据变换、离散化与编码
2.4.2 数据抽样技术
2.4.3 主成分分析
2.4.4 数据清洗
2.5 Spark数据预处理功能简介
2.5.1 二值化
2.5.2 分箱器
2.5.3 哈达玛积变换
2.5.4 最大绝对值标准化
2.5.5 最小—最大变换
2.5.6 正则化
2.5.7 多项式扩展
2.5.8 标准化
2.5.9 特征向量合并
2.5.10 类别特征索引
习题
第3章 关联规则挖掘
3.1 基本概念
3.2 基于候选项产生—测试策略的频繁模式挖掘算法
3.2.1 Apriori算法
3.2.2 基于划分的算法
3.2.3 事务数据的存储
3.3 不需要产生候选项集的频繁模式挖掘算法
3.3.1 FP-Growth算法
3.3.2 Spark上FP-Growth算法实践
3.4 结合相关性分析的关联规则
3.5 多层关联规则挖掘算法
3.6 序列模式挖掘
3.6.1 序列模式的定义
3.6.2 PrefixSpan算法
3.6.3 与其他序列模式挖掘算法的比较和分析
3.7 其他类型关联规则简介
3.7.1 量化关联规则
3.7.2 时态关联规则
3.7.3 局部化的关联规则
3.7.4 优化的关联规则
习题
第4章 分类与回归算法
4.1 决策树算法
4.1.1 决策树简介
4.1.2 决策树的类型
4.1.3 决策树的构造过程
4.1.4 信息论的有关概念
4.1.5 ID3算法
4.1.6 信息论在ID3算法中的应用
4.1.7 C4.5 算法
4.1.8 CART算法
4.1.9 过拟合与决策树剪枝
4.1.10 决策树后剪枝策略
4.1.11 决策树的生成与可视化
4.1.12 几种属性选择度量的对比
4.2 贝叶斯分类器
4.2.1 贝叶斯决策理论
4.2.2 极大似然估计
4.2.3 朴素贝叶斯分类器
4.2.4 贝叶斯网络基础
4.2.5 通过贝叶斯网络判断条件独立
4.2.6 贝叶斯网络推理实例
4.3 基于实例的分类算法
4.3.1 KNN分类器
4.3.2 局部加权回归
4.3.3 基于案例的推理
4.4 组合分类算法
4.4.1 Adaboost算法
4.4.2 Bagging算法
4.4.3 随机森林
4.5 分类器算法的评估
4.6 回归分析
4.6.1 线性回归
4.6.2 岭回归
4.6.3 多项式回归
4.6.4 逻辑回归
4.6.5 决策树回归
4.6.6 梯度提升决策树
习题
第5章 聚类算法
5.1 聚类分析概述
5.2 聚类算法的分类
5.3 距离度量
5.3.1 幂距离
5.3.2 欧式距离
5.3.3 曼哈顿距离
5.3.4 切比雪夫距离
5.3.5 余弦相似度
5.3.6 兰氏距离
5.3.7 马氏距离
5.3.8 斜交空间距离
5.3.9 杰卡德距离
5.3.10 汉明距离
5.4 基于划分的聚类算法
5.4.1 K均值算法
5.4.2 二分K均值聚类算法
5.4.3 小批量K均值算法
5.4.4 K均值++算法
5.4.5 K中心点算法
5.4.6 数据流K均值算法
5.5 基于密度的聚类算法
5.5.1 DBSCAN算法
5.5.2 OPTICS算法
5.6 基于模型的聚类算法:高斯混合模型算法
5.6.1 算法原理
5.6.2 GMM算法的参数估计
5.6.3 GMM算法实践
5.7 层次聚类
5.7.1 凝聚的层次聚类算法
5.7.2 聚类之间距离的度量方法
5.7.3 层次聚类算法的性质
5.7.4 BIRCH算法
5.8 基于网格的聚类算法
5.8.1 STING算法
5.8.2 CLIQUE算法
5.9 Mean Shift聚类算法
5.9.1 基本概念
5.9.2 Mean Shift算法聚类过程
5.9.3 Mean Shift聚类算法实践
5.9.4 改进的Mean Shift算法
5.10 聚类算法评价指标
5.10.1 调整兰德指数
5.10.2 互信息评分
5.10.3 同质性、完整性以及调和平均
5.10.4 Fowlkes-Mallows评分
5.10.5 轮廓系数
5.10.6 Calinski-Harabz 指数
习题
第6章 数据挖掘综合应用:异常检测
6.1 预备知识
6.1.1 相关统计学概念
6.1.2 异常检测评价指标
6.1.3 异常检测问题的特点
6.1.4 异常检测算法分类
6.2 基于隔离森林的异常检测算法
6.2.1 隔离与隔离树iTree
6.2.2 隔离森林的特点
6
标签
缩略图
书名 大数据分析与挖掘(数据科学与大数据技术专业系列规划教材)
副书名
原作名
作者 石胜飞
译者
编者 石胜飞
绘者
出版社 人民邮电出版社
商品编码(ISBN) 9787115483058
开本 16开
页数 265
版次 1
装订 平装
字数 459
出版时间 2018-08-01
首版时间 2018-08-01
印刷时间 2018-08-01
正文语种
读者对象 本科及以上
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 498
CIP核字 2018162492
中图分类号 TP274
丛书名
印张 17.75
印次 1
出版地 北京
260
184
13
整理
媒质
用纸
是否注音
影印版本
出版商国别 CN
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/8 22:07:49