登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』数据清洗与ETL技术

書城自編碼: 3748330
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 冯广、龚旭辉、周瀚章、李嘉、徐启东、曾虎、孔立斌、石鸣鸣
國際書號(ISBN): 9787302600817
出版社: 清华大学出版社
出版日期: 2022-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 55.2

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
《 形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛) 》

售價:HK$ 113.6
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
《 卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张) 》

售價:HK$ 135.7
化妆品学原理
《 化妆品学原理 》

售價:HK$ 57.3
万千教育学前·与幼儿一起解决问题:捕捉幼儿园一日生活中的教育契机
《 万千教育学前·与幼儿一起解决问题:捕捉幼儿园一日生活中的教育契机 》

售價:HK$ 48.3
爱你,是我做过最好的事
《 爱你,是我做过最好的事 》

售價:HK$ 57.3
史铁生:听风八百遍,才知是人间(2)
《 史铁生:听风八百遍,才知是人间(2) 》

售價:HK$ 57.3
量子网络的构建与应用
《 量子网络的构建与应用 》

售價:HK$ 112.7
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
《 拍电影的热知识:126部影片里的创作技巧(全彩插图版) 》

售價:HK$ 112.7

 

建議一齊購買:

+

HK$ 107.3
《“十二五”普通高等教育本科国家级规划教材·教育心理学(第三版》
+

HK$ 44.9
《公司治理(第2版)(教育部经济管理类核心课程教材)》
+

HK$ 57.5
《大学生创新创业实践与案例》
+

HK$ 55.2
《创业基础实务》
+

HK$ 79.7
《园艺植物育种学(张菊平)》
+

HK$ 143.6
《内科护理学(第6版/本科护理)》
編輯推薦:
本教材资料齐全:配有电子教案、案例、习题、试卷、实训教程等。
內容簡介:
本书为大数据时代下的产物,由浅入深地介绍大数据及其相关知识,在大数据的背景下着重介绍ETL数据处理技术,同时引入数据清洗的知识,理论与实际相结合,突出所长。在理论上,本书突出重点与难点,较为系统地介绍大数据的各项基本技术。在实践操作上,本书贴近生活,切实理解,紧跟实验进行,并从中萃取精华。同时本书还介绍ETL技术的主流工具,结合当下一些项目进行运用,并综合课后思考题,使读者在学习中体会大数据的乐趣,翱游在大数据的海洋中。 本书可作为高校新兴专业——数据科学专业的配套教材,也可作为其他专业的选修课教材,还可作为初学者的学习教程。
關於作者:
冯广,男,硕士生导师,现任广东工业大学网络信息与现代教育技术中心副主任,博士,网络规划师,硕士研究生导师。长期从事计算机网络技术、网络控制技术和控制科学与控制工程领域的教学与科研工作。主要研究方向有网络与信息化控制、化控制、RFID技术、计算机网络等。
目錄
第1章从大数据到ETL1
1.1大数据概述1
1.1.1大数据的定义2
1.1.2大数据的基本性质2
1.1.3大数据的影响4
1.1.4大数据带来的挑战7
1.2科学处理数据9
1.3ETL简介10
1.3.1ETL的基本定义10
1.3.2ETL的基本过程11
1.3.3ETL的架构体系11
1.3.4ETL的必要性13
1.3.5ETL的分类14
1.3.6基本ETL过程与数据清理的区别14
1.3.7ETL现状与发展15
1.4数据抽取16
1.4.1数据抽取的概念16
1.4.2分类抽取16
1.4.3数据抽取的原则和方法17
1.5数据转换17
1.5.1数据转换的概念17
1.5.2类型转换17
1.6数据加载18
1.6.1数据加载的概念18
1.6.2数据加载方式18
1.7实验任务——处理论文的年份19
1.8小结23
1.9习题23第2章数据抽取25
2.1数据源25
2.1.1关系数据库25
2.1.2非关系数据库27
2.1.3通用程序库28
2.2数据抽取方式29
2.2.1全量抽取29
2.2.2增量抽取29
2.2.3增量抽取的比较分析30
2.3Hadoop的数据抽取32
2.3.1Hadoop简介32
2.3.2Hadoop研究现状32
2.3.3环境搭建34
2.3.4数据采集34
2.4Web文件的数据抽取35
2.4.1Web文件简介35
2.4.2主要工作35
2.4.3主要工具——Connotate35
2.4.4应用分析——基于页面标签的Web结构化数据抽取37
2.5数据库的数据抽取41
2.5.1数据库简介41
2.5.2主要应用——基于ETL工具软件的数据抽取43
2.6文本文件的数据抽取44
2.6.1文本文件数据抽取及应用领域44
2.6.2网络爬虫44
2.7实验任务——MySQL环境搭建及数据抽取46
2.7.1MySQL在Windows下的搭建46
2.7.2MySQL在Linux下的搭建47
2.7.3案例分析50
2.8小结54
2.9习题54第3章数据转换56
3.1数据转换56
3.1.1数据转换的概念56
3.1.2数据转换的标准57
3.1.3数据转换的方法57
3.1.4数据之间的关联58
3.2数据清洗59
3.2.1数据清洗的主要内容59
3.2.2数据清洗研究现状60
3.2.3数据清洗的必要性61
3.2.4数据清洗的问题61
3.2.5数据清洗对工具的要求62
3.2.6数据清洗的流程62
3.2.7数据清洗的原理63
3.2.8数据清洗的方法63
3.3Python下的数据清洗65
3.3.1Python概述65
3.3.2Python的特点66
3.3.3Python Pandas——数据清洗67
3.4数据转换工具75
3.4.1Data Stage75
3.4.2Kettle78
3.4.3Informatica PowerCenter81
3.4.4ETL Automation82
3.4.5SSIS82
3.4.6几种工具之间的比较83
3.5实验任务——Kettle的分类安装及案例分析84
3.5.1Kettle的分类安装84
3.5.2案例分析——利用Kettle处理错误代码行84
3.6小结87
3.7习题87第4章数据加载89
4.1数据加载89
4.1.1数据加载的概念89
4.1.2数据加载机制89
4.2数据加载技术90
4.2.1加载技术90
4.2.2全量数据加载流程91
4.3数据仓库93
4.3.1数据仓库基本内容94
4.3.2数据仓库架构97
4.3.3数据仓库设计98
4.3.4数据仓库的规划和需求分析99
4.3.5数据仓库的建模100
4.3.6数据仓库的物理模型分析107
4.3.7数据仓库的物理模型设计109
4.4加载SQL123
4.4.1SQL的基本内容123
4.4.2MySQL集群体125
4.5加载MyCat128
4.5.1MyCat简介128
4.5.2MyCat的关键特性128
4.5.3拓扑结构129
4.5.4MyCat的功能描述129
4.5.5MyCat下载安装132
4.6加载数据流134
4.6.1流概述134
4.6.2数据流的基本性质135
4.6.3数据流的基本操作136
4.6.4数据流的描述方法137
4.7小结138
4.8习题138第5章大数据ETL实现139
5.1Spark的分布式ETL实现139
5.1.1Spark概述140
5.1.2Spark数据模型——RDD140
5.1.3Spark的安装配置141
5.1.4分布式ETL总体架构143
5.1.5分布式转换引擎的实现144
5.1.6SparkStreaming的实时同步实现147
5.2Spark完成在ETL时的相关技术148
5.2.1SparkApplication提交逻辑分析149
5.2.2Spark交互模式150
5.2.3使用Spark实现ETL151
5.2.4小结151
5.3Hive的ETL实现152
5.3.1Hive简介152
5.3.2Hadoop伪分布式集群搭建152
5.3.3Hive的安装配置156
5.3.4Hive的基本操作158
5.4Sqoop的ETL实现169
5.4.1Sqoop简介169
5.4.2Sqoop的安装部署169
5.4.3Sqoop的常用命令170
5.4.4案例分析——利用Sqoop进行ETL操作173
5.5小结176
5.6习题176第6章案例分析177
6.1校园大数据建设177
6.1.1校园大数据建设背景177
6.1.2校园大数据检索需求178
6.1.3总体目标178
6.1.4建设内容179
6.1.5数据抽取180
6.1.6数据转换180
6.1.7数据仓库的建设182
6.1.8项目效益184
6.2反洗钱系统中的ETL应用185
6.2.1反洗钱简介185
6.2.2反洗钱系统中ETL的重要性185
6.2.3反洗钱系统中的ETL设计186
6.3电信行业中的ETL应用190
6.3.1背景知识190
6.3.2设计目的191
6.3.3ETL架构设计191
6.3.4ETL接口设计193
6.3.5控制实现195
6.4云计算下的ETL设计198
6.4.1云计算简介198
6.4.2传统数据仓库ETL面临的困境198
6.4.3ETL系统设计199
6.4.4ETL工作流199
6.5BI项目中的ETL应用201
6.5.1BI概述201
6.5.2ETL功能架构202
6.5.3ETL数据流202
6.5.4ETL作业调度205
6.5.5ETL监控和日志207
6.5.6数据质量检测209
6.5.7BI项目中的ETL实现210
6.6小结215
6.7习题215参考文献216
內容試閱
在信息技术高速发展的今天,大数据的发展尤为显著,并影响着社会生产和人类生活的方方面面。随着信息数据量的急剧增长,大数据作为一门新兴的学科出现在人们的眼前。大数据又称巨量数据,是指涉及的资料量规模巨大到无法利用目前的主流软件工具在合理时间内整理成为有用资讯的数据。
对一个国家而言,能否紧紧抓住大数据的发展机遇,形成大数据体系,参与新一轮的全球竞争,将影响未来的发展方向,甚至若干年内世界范围内的科技力量主导。在大数据竞争的博弈中,大数据专业人才的培养更是新一轮科学技术较量的基础和重点,各大高校和研究机构承担着大数据人才培养的重任,要为国家的发展输入源源不断的动力。为此,大数据课程的开设和大数据知识的学习也就显得尤为重要,受到了各大高校和科研机构的高度重视。
ETL技术作为大数据背景下不可或缺的一环贯穿着数据的始终,是数据技术人员的技能,也逐渐成为大数据专业的一门重要的专业基础课程。
本书以帮助读者掌握大数据技术为目标,详细介绍大数据的基本情形和未来发展方向,ETL技术贯穿全书,使读者在学习ETL技术的过程中感受大数据的魅力。
本书分为6章,采用理论知识与项目教学的方式组织内容,每个项目都来自典型案例,具有说服力,各章节由理论介绍入手,结合实际项目练习扩展知识面,每章后提供自测题。
第1章为绪论,由大数据切入,介绍大数据的基本概况,进而引入ETL,且对这3个过程做了整体说明,接着引入本书的个入门案例,利用ETL技术对论文中的年份进行处理。
第2章引入ETL的个过程(数据抽取),详细介绍数据抽取的方式,紧接着对各种形式下的数据源抽取进行分类介绍,后在Windows和Linux环境下搭建MySQL,且对此进行数据抽取操作。
第3章为数据转换,介绍数据转换的基本知识点,并对数据转换工具进行详细说明,后将Kettle安装及其部署作为本章的一个案例,并利用Kettle工具对某一文件的错误行进行统计并生成日志。
第4章为数据加载,介绍数据加载的基本理论知识,然后搭建数据仓库,后对几种环境下的数据进行加载分析。
第5章为ETL在大数据下的实现,讲解ETL在Spark、Hive、Sqoop这3种环境下的实现,并搭建Hadoop伪分布式集群,后利用Sqoop实现ETL过程。
第6章为案例分析,讲解ETL在高校大数据建设、反洗钱系统、商业智能(BI)和电信领域内的应用及其实现。
本书的读者对象为想学习和了解大数据的科研工作者、高校师生以及对大数据、ETL技术有极大兴趣的人士。通过本书的学习,初学者可以达到中等水平,能对大数据和ETL技术有很好的了解和认知,熟练掌握MySQL数据库、虚拟机命令、Hadoop平台、数据仓库技术等。已在大数据领域造诣极深的学者也可以参考本书,对科研、学习也有一定的帮助。
本书的参考学时为32学时,建议采用理论实践一体化的教学模式,各章的参考学时详见如下学时分配表。学时分配表项目及章节课 程 内 容学时第1章从大数据到ETL2案例1处理论文的年份1第2章数据抽取2案例2MySQL环境搭建及数据抽取1第3章数据转换2案例3Kettle的分类安装及案例分析2第4章数据加载4案例4数据仓库的搭建2第5章大数据ETL实现4案例5Hadoop伪分布式集群和Sqoop案例4第6章案例分析4案例6校园大数据建设4本书由冯广主编,龚旭辉编写第1章,周瀚章编写第2章,李嘉编写第3章,冯广编写第4章,曾虎编写第5章,徐启东编写第6章,孔立斌、石鸣鸣负责修改全书,后由冯广统稿。
由于编者水平和经验有限,书中难免有欠妥和错误之处,恳请读者批评指正。
编者2022年3月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.