新書推薦:
《
诛吕:“诸吕之乱”的真相与吕太后时期的权力结构
》
售價:HK$
99.7
《
炙野(全2册)
》
售價:HK$
78.2
《
女人的胜利
》
售價:HK$
55.9
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:HK$
266.6
《
500万次倾听:陪伤心的人聊聊
》
售價:HK$
53.8
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:HK$
80.6
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:HK$
87.4
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
66.1
|
編輯推薦: |
汇集大数据采集与预处理的理论与常见用法,通过实例展示
|
內容簡介: |
本书主要介绍大数据关键技术中的大数据采集和数据预处理技术,是大数据专业的入门级的专业基础课教程(含教学课件、源代码与视频教程),旨在为学生搭建起大数据的知识架构,讲述大数据采集和数据预处理的基本原理,开展相关的实验,为学生在大数据以及相关领域的学习奠定坚实的基础。全书共分四部分:第一部分是理论基础(第1~2章和第6章),主要介绍大数据技术、大数据采集和大数据预处理的基本概念以及基础理论;第二部分是大数据采集(第3~5章),分别介绍3种大数据的采集方法、技术及4种工具;第三部分是大数据预处理(第7~8章),介绍4种大数据预处理技术、方法;第四部分是实验指导(第9~11章),介绍大数据采集和大数据预处理的实验平台以及具体实验的内容、方法、流程等。 为便于读者高效学习,快速掌握大数据专业基础知识。作者精心制作了完整的教学课件(11章PPT)与部分配套视频教程(200分钟)。本书可以作为高等院校计算机、电子信息、信息管理、软件工程等专业,尤其大数据相关专业的本科和硕士研究生教材或参考书。
|
目錄:
|
第1章概述
1.1大数据基础
1.1.1大数据的定义与特征
1.1.2我国的大数据发展及趋势
1.1.3大数据的应用
1.1.4大数据的层次架构
1.2大数据技术
1.2.1大数据关键技术
1.2.2大数据支撑技术
1.3大数据的影响及思维方式
1.3.1大数据的影响
1.3.2大数据的思维方式
1.4大数据伦理及安全
1.4.1大数据伦理
1.4.2大数据安全
1.5本章小结
习题
第2章大数据采集技术基础
2.1传统数据采集技术
2.1.1传统数据采集及特点
2.1.2传统数据采集的硬件与软件
2.1.3传统数据采集的关键技术
2.2大数据采集基础
2.2.1大数据采集的概念
2.2.2大数据采集的要点
2.2.3大数据的来源
2.2.4大数据采集的基本方法
2.3大数据分布式文件系统
2.3.1数据管理技术的发展
2.3.2HDFS概述
2.3.3HDFS特点
2.3.4HDFS工作原理
2.3.5HDFS的读/写数据流程
2.4分布式数据库系统HBase
2.4.1分布式关系数据库系统的缺陷
2.4.2HBase简介
2.4.3HBase的数据模型关键要素
2.4.4HBase的体系结构
2.5大数据分布式数据仓库
2.5.1数据仓库的特点
2.5.2Hive的内部架构
2.5.3Hive的数据组织
2.6本章小结
习题
第3章系统日志数据采集
3.1系统日志数据采集概述
3.1.1系统日志分类
3.1.2日志分析应用场景
3.1.3系统日志收集方法
3.2Flume数据采集
3.2.1Flume效益
3.2.2Flume整体结构
3.2.3Flume的核心部件Agent
3.2.4Flume运行机构
3.3Scribe数据采集
3.3.1Scribe的功能
3.3.2Scribe的架构
3.3.3Scribe的流程
3.3.4Scribe存储类型
3.4Event Log Analyzer数据采集
3.4.1Event Log Analyzer特点
3.4.2Event Log Analyzer主要功能
3.4.3Event Log Analyzer的可视化用户界面
3.5基于Log Parser的数据采集
3.5.1Log Parser组成部分
3.5.2Log Parser Lizard软件功能
3.5.3Log Parser Lizard软件特色
3.6本章小结
习题
第4章大数据迁移
4.1数据迁移基础
4.1.1大数据迁移的需求
4.1.2大数据迁移的风险
4.1.3大数据迁移的流程
4.1.4大数据迁移任务类型
4.2数据迁移相关技术
4.2.1基于存储的数据迁移
4.2.2基于主机逻辑卷的数据迁移
4.2.3基于数据库的数据迁移
4.2.4基于服务器虚拟化的数据迁移
4.3大数据迁移工具Sqoop
4.3.1Sqoop概述
4.3.2Sqoop的数据导入
4.3.3Sqoop的数据导出
4.4ETL数据迁移技术
4.4.1ETL概述
4.4.2ETL的实现模式
4.4.3ETL工具
4.5本章小结
习题
第5章互联网数据采集
5.1网络爬虫概述
5.1.1网络爬虫的基本概念
5.1.2网络爬虫的爬行策略
5.1.3Web更新策略
5.1.4robots协议
5.2网络爬虫方法
5.2.1按功能分类的网络爬虫
5.2.2通用网络爬虫
5.2.3焦点网络爬虫
5.2.4Deep Web爬虫
5.2.5分布式网络爬虫
5.3网络爬虫工具
5.3.1ParseHub
5.3.2Web Scraper
5.3.3后羿采集器
5.3.4八爪鱼收集器
5.4Python爬虫技术
5.4.1Python爬行器基础知识
5.4.2反爬虫与反爬虫技术
5.5本章小结
习题
第6章数据预处理基础
6.1数据的描述
6.1.1数据对象与属性类型
6.1.2数据的统计描述
6.1.3数据矩阵与相似(相异)矩阵
6.2相似性或相异性度量方法
6.2.1标称属性相似性或相异性的度量
6.2.2二元属性相似性或相异性的度量
6.2.3数值属性相似性或相异性的度量
6.2.4文档相似性和相异性的度量
6.3大数据质量
6.3.1常见的数据质量问题
6.3.2大数据质量标准
6.4本章小结
习题
第7章数据清洗与集成
7.1数据清洗基础
7.1.1数据清洗的任务
7.1.2数据清洗的前期准备
7.1.3数据清洗的一般性系统框架
7.2数据清洗技术
7.2.1缺失值处理
7.2.2光滑噪声数据处理
7.2.3检测偏差与纠正偏差
7.3数据集成基础
7.3.1数据集成的难点
7.3.2数据集成的方式
7.4数据集成技术
7.4.1模式识别和对象匹配
7.4.2冗余处理
7.4.3数据值冲突的检测与处理
7.5本章小结
习题
第8章数据归约与变换
8.1数据归约基础
8.1.1数据归约策略
8.1.2数据归约算法的特点
8.1.3数据归约的一般方法
8.2数据归约技术
8.2.1小波变换
8.2.2主成分分析
8.2.3属性子集选择
8.2.4回归和对数线性模型
8.2.5直方图
8.2.6数据立方体聚集
8.3数据变换基础
8.3.1数据变换内容
8.3.2数据变换的意义
8.4数据变换技术
8.4.1规范化变换
8.4.2离散化变换
8.4.3标称数据的概念层次变换
8.5本章小结
习题
第9章大数据采集实验
9.1实验1基于EventLog Analyzer的日志分析
9.2实验2基于Log Parser的日志处理
9.3实验3基于八爪鱼采集器的网络信息爬取
9.4实验4了解和使用Python和requests库
9.5实验5使用PyCharm编写requests库爬虫
9.6实验6使用PyCharm编写BeautifulSoup库爬虫
9.7本章小结
第10章大数据预处理实验
10.1实验1启动、了解SaCa大数据实验平台
10.2实验2使用SaCa大数据实验平台分析数据
10.3实验3大数据预处理基础——数据集成
10.4实验4缺失值填充
10.5实验5数据规范化
10.6实验6连续特征离散化
10.7实验7主成分分析
10.8实验8相关性特征选择
10.9本章小结
第11章大数据采集与预处理应用案例
11.1基于Pandas图书数据分析处理
11.1.1案例意义
11.1.2Pandas库
11.1.3图书数据采集
11.1.4数据预处理及分析
11.2石油数据预处理系统
11.2.1石油数据预处理系统需求
11.2.2石油数据预处理系统流程
11.2.3石油数据预处理算法
11.2.4实验数据预处理结果分析
11.3电影票房预测数据分析处理
11.3.1案例意义
11.3.2数据处理流程
11.3.3数据采集和分析
11.3.4数据处理和预测
参考文献
|
內容試閱:
|
据赛迪智库预测,中国近年来大数据核心人才缺口达230万人,全世界相关人才缺口超过1000万人。我国门为了响应社会发展需要,于2016年开始正式开设“数据科学与大数据技术”本科专业及“大数据技术与应用”专科专业。近几年,全国形成了申报与建设大数据相关专业的热潮。目前全国各类高校、高职院校都已陆续开设了大数据相关的专业和课程。大数据作为交叉型学科,其相关专业强调培养具有多学科交叉能力的大数据人才。
大数据专业是顺应时代发展的产物。大数据作为新兴的、交叉的专业,在培养方案、系列教材等方面,各高校都在组织教师进行改进、研究。普遍认为,数据科学与大数据技术专业的毕业生,应掌握计算机理论和大数据处理技术,需要从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地培养,能够应对大数据应用中的各种典型问题,具有将领域知识与计算机技术和大数据技术融合、创新的能力,可以从事大数据研究和开发应用等工作。
本书主要介绍大数据关键技术中的大数据采集和数据预处理技术,是大数据专业的入门级的专业基础课教程,旨在为学生搭建起大数据的知识架构,讲述大数据采集和数据预处理的基本原理,开展相关的实验,为学生在大数据以及相关领域的学习奠定坚实的基础。
本书以大数据关键技术为主线,重点介绍大数据采集技术和数据预处理技术。本书共四大部分,共11章。第一部分:大数据基础,含第1章概述、第2章大数据采集技术基础和第6章数据预处理基础;第二部分:大数据采集,含第3章系统日志数据采集、第4章基于数据库的数据迁移和第5章互联网数据采集;第三部分:数据预处理,含第7章数据清洗与集成和第8章数据归约与变换;第四部分:实验指导,含第9章大数据采集实验、第10章数据预处理实验和第11章综合案例实验,涉及的实验是在东软集团股份有限公司研制开发的SaCa RealRec数据科学平台上进行设计编写的。
本书的文本层次分明、逻辑性强、概念清晰、可读性强,具有如下特点:
(1) 主要参照“数据科学与大数据技术”本科专业的培养方案,综合考虑专业的本源,如从计算机类专业、数学统计类专业以及经济类专业。
(2) 注重理论联系实际,实践能力培养。书中既有理论讲解也有配套的实践教程,力求通过理论和原理教学、课堂讨论与课程实验等多个环节,训练学生掌握知识、运用知识分析并解决实际问题的能力,以满足学生今后就业或科研的需求,同时满足“全国工程教育专业认证”对学生基本能力的培养要求与复杂问题求解能力的要求。
(3) 配套资源丰富。教材配有PPT电子教案及相关的电子资源,如实验要求及Demo、配套的实验资源管理与服务平台等,形成了立体化系列教材。
本书由东北石油大学计算机与信息技术学院唐世伟、田枫、盖璇、李学贵、林君合作编写。其中,第1、6、7、8、11章主要由唐世伟编写,第2、4、10章主要由田枫编写,第3、5、9章主要由盖璇编写,第11章由李学贵编写,林君参与了部分章节的编写,全书由唐世伟统稿。在本书的编写过程,参考了大量的相关文献,并有选择地纳入本书中,在此向文献作者表示感谢。
由于编者水平有限,书中难免存在不足之处,敬请广大读者批评指正,希望学术同仁不吝赐教。
编者2022年4月于大庆
|
|