新書推薦:
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:HK$
132.2
《
《日本文学史序说》讲演录
》
售價:HK$
72.8
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:HK$
99.7
《
治盗之道:清代盗律的古今之辨
》
售價:HK$
122.1
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:HK$
210.6
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:HK$
300.2
《
欲望与家庭小说
》
售價:HK$
98.6
《
惜华年(全两册)
》
售價:HK$
70.3
|
內容簡介: |
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
|
關於作者: |
Ivan Marin是一名系统架构师和数据科学家,目前就职于位于坎皮纳斯的软件公司Daitan Group。他设计用于大量数据的大数据系统,并使用Python和Spark端到端实现机器学习管道。他还是圣保罗数据科学、机器学习和Python活跃组织者,并在大学级别教授Python数据科学课程。
|
目錄:
|
第1章Python数据科学堆栈1
1.1概述1
1.2Python库和软件包2
1.2.1IPython:一个功能强大的交互式shell2
1.2.2Jupyter Notebook4
1.2.3使用IPython还是Jupyter8
1.2.4Numpy9
1.2.5Scipy10
1.2.6Matplotlib10
1.2.7Pandas11
1.3使用Pandas11
1.3.1读取数据12
1.3.2数据操作13
1.4数据类型转换21
1.5聚合和分组24
1.6从Pandas导出数据26
1.7Pandas可视化29
1.8总结31
第2章统计数据可视化33
2.1概述33
2.2可视化图表34
2.3图表的组件36
2.4Seaborn40
2.5图的类型41
2.5.1折线图(Line graph)42
2.5.2散点图(Scatter plot)45
2.5.3直方图(Histogram)48
2.5.4箱线图(Boxplot)51
2.6Pandas DataFrame54
2.7修改图的组件57
2.7.1配置轴对象的标题和标签57
2.7.2修改线条颜色和样式60
2.7.3修改图的大小60
2.8导出图像63
2.9总结67
第3章使用大数据框架69
3.1概述69
3.2Hadoop70
3.2.1使用HDFS操控数据71
3.3Spark数据处理平台73
3.3.1Spark SOL以及Pandas DataFrame75
3.4Parquet文件80
3.4.1编写Parquet文件81
3.4.2使用Parquet和Partitions提高分析性能82
3.5处理非结构化数据84
3.6总结87
第4章Spark DataFrame89
4.1概述89
4.2使用Spark DataFrame使用方法90
4.3从Spark DataFrame中写入输出94
4.4探索和了解Spark DataFrame更多特点95
4.5使用Spark DataFrame对数据进行相关操作98
4.6Spark DataFrame绘制图形106
4.7总结112
第5章处理缺失值以及相关性分析114
5.1概述114
5.2设置Jupyter Notebook115
5.3缺失值116
5.4处理Spark DataFrame中的缺失值119
5.5相关性121
5.6总结126
第6章进行探索性数据分析127
6.1概述127
6.2定义商业问题128
6.2.1问题识别129
6.2.2需求收集130
6.2.3数据管道和工作流130
6.2.4识别可测量的指标130
6.2.5文档和展示131
6.3将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)131
6.3.1数据采集132
6.3.2数据生成分析132
6.3.3KPI可视化133
6.3.4特征重要性133
6.4数据科学项目生命周期的结构化方法145
6.4.1阶段:理解和定义业务问题146
6.4.2第二阶段:数据访问与发现146
6.4.3第三阶段:数据工程和预处理147
6.4.4第四阶段:模型开发148
6.5总结149
第7章大数据分析中的再现性150
7.1概述150
7.2Jupyter Notebooks的再现性151
7.2.1业务问题介绍152
7.2.2记录方法和工作流程152
7.2.3数据管道153
7.2.4相关性153
7.2.5使用源代码版本控制153
7.2.6模块化过程154
7.3以可复制的方式收集数据154
7.3.1标记单元格和代码单元格中的功能155
7.3.2解释标记语言中的业务问题156
7.3.3提供数据源的详细介绍157
7.3.4解释标记中的数据属性157
7.4进行编码实践和标准编写162
7.4.1环境文件162
7.4.2编写带有注释的可读代码162
7.4.3工作流程的有效分割163
7.4.4工作流文档163
7.5避免重复167
7.5.1使用函数和循环优化代码168
7.5.2为代码/算法重用开发库/包169
7.6总结170
第8章创建完整的分析报告171
8.1概述171
8.2Spark可从不同的数据源读取数据172
8.3在Spark DataFrame上进行SQL操作173
8.4生成统计测量值181
8.5总结185
附录187
|
內容試閱:
|
关于这本书
由于数据可扩展性、信息不一致性和容错性,实时处理大数据存在一定挑战性,而使用Python进行大数据分析可教会您如何使用控制数据雪崩的工具。通过这本书,您可学习到这样的实用技术:将数据聚合为有用维度以进行后验分析、提取统计测量值以及将数据集转换为其他系统的特征。
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
在本书的结尾,您将学习到如何设置自己的Python环境,处理大型文件并操作数据以生成统计数据、度量和图表。
学习目标
使用Python读取数据并将其转换为不同的格式。
使用磁盘上的数据生成基本的统计数据和指标。
处理分布在集群上的计算任务。
将来自不同来源的数据转换为存储格式或查询格式。
为统计分析、可视化和机器学习准备数据。
以视觉效果的形式呈现数据。
成果
使用Python进行大数据分析采用实践方法来理解如何使用Python和Spark处理数据并从中获得有用的东西。它包含多个使用真实业务场景的测试,让您在高度相关的环境中练习和应用您的新技能。
读者对象
Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
|
|