新書推薦:
《
虚拟资本:金融怎样挪用我们的未来
》
售價:HK$
79.4
《
刻意练习不生气
》
售價:HK$
40.3
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:HK$
112.7
《
安全感是内心长出的盔甲
》
售價:HK$
68.8
《
快人一步:系统性能提高之道
》
售價:HK$
113.9
《
我们为什么会做梦:让梦不再神秘的新科学
》
售價:HK$
79.4
《
算法图解(第2版)
》
售價:HK$
80.3
《
科学的奇幻之旅
》
售價:HK$
79.4
|
編輯推薦: |
(1)作者背景权威:R和Python数据分析与挖掘领域的社区领军人物,某大型国资寿险公司数据团队负责人。(2)作者经验丰富:拥有超过16年的数据分析与挖掘经验,擅长使用ChatGPT等AI工具辅助数据分析与挖掘。(3)零编程经验也能成为Python数据分析高手:详细讲解如何巧妙地使用ChatGPT学习Python数据分析与挖掘,大大降低学习门槛,大幅提升学习效率。(4)快速成为AI数据分析达人:围绕数据分析与挖掘的全生命周期,提供了大量使用ChatGPT进行数据分析与挖掘的方法和技巧。(5)通俗易懂,容易上手:采用由浅入深的讲解方式,既适用于 Python 初学者,也适用于有经验的数据分析人员;采用通俗易懂的语言,避免了复杂的数学公式和理论推导。(6)内容丰富,实用性强:内容涵盖了从数据分析基础到高级分析的各个方面,每章都提 供了大量的代码示例,读者可以跟随书中的指导进行操作。 (7)涵盖主流 Python 库:包括NumPy、Pandas、scikit-learn 等常用数据分析及建模库,Matplotlib、Bokeh等常用数据可视化库以及深度学习框架 TensorFlow。
|
內容簡介: |
内容简介这既是一本引导读者如何使用ChatGPT低门槛、高效率学习Python数据分析与挖掘方法的著作,又是一本指导读者如何使用ChatGPT精准、高效地进行Python数据分析与挖掘实操的著作。从读者对象的角度看,本书既大大降低了没有编程经验的读者学习Python数据分析的门槛,又为有经验的Python数据分析师提供了大量实用的AI数据分析技巧,帮助他们快速转型为具备AI能力的数据分析师。从核心内容的角度看,本书不仅讲解了如何在数据预处理、数据清洗、数据可视化等基础的数据分析环节使用AI工具,而且还讲解了如何在聚类分析、预测分析等高级的数据建模环节使用AI工具。阅读完本书,你将掌握以下知识:(1)数据分析、数据挖掘以及机器学习算法的基础知识。(2)ChatGPT等AI工具的注册及使用,以及如何使用这些AI工具学习Python。(3)使用ChatGPT辅助各种常见的数据操作和数据预处理。(4)使用ChatGPT辅助静态数据可视化和数据交互可视化。(5)使用ChatGPT辅助聚类分析、关联规则分析、回归分析。(6)使用ChatGPT辅助学习降维算法、决策树算法、随机森林、k近邻算法、支持向量机算法、神经网络算法。(7)使用ChatGPT辅助数据建模以及对模型的性能进行评估和优化。本书采用由浅入深的写作方式,既确保了内容的可理解性,又保持了足够的深度,配有详细的代码示例和实践指导,确保每位读者能够轻松上手并从中获益,提升自己的分析效率和洞察能力。本书采用案例驱动的写作方式,通过实际业务案例详细拆解AI技术在各个场景中的应用步骤和技巧。语言简洁易懂,理论与实践结合,注重实用性和可操作性,帮助读者快速掌握核心知识。提供丰富的实际案例和操作指南,涵盖多种AI工具和交互技巧,确保读者能够学以致用。
|
關於作者: |
谢佳标
资深数据挖掘专家,拥有超过16年数据分析与挖掘经验,擅长使用ChatGPT等AI工具辅助数据分析与挖掘。
曾就职于平安人寿,现就职于某国资寿险公司,负责数据化运营、数据挖掘及数据可视化相关工作的技术研发及团队管理工作。对如何利用R语言、Python等工具进行数据分析与挖掘有丰富的实战经验,在深度学习领域也有深厚的积累。
社会荣誉:
2017—2024年连续7年微软最具价值专家MVP;
中国现场统计研究会大数据统计分会第一届理事;
历届中国R语言大会演讲嘉宾;
2015—2017年WOT “互联网 ”大数据技术峰会演讲嘉宾;
广深两地微软 MVP - SQL 技术沙龙专家。
撰写书籍:
《Keras深度学习:入门、实战与进阶》
《深度学习从入门到精通:基于 Keras》
《R语言数据分析及挖掘(微课版)》
《R语言游戏数据分析与挖掘》
《R语言与数据挖掘》
|
目錄:
|
目 录 Contents
前 言
第1章 数据分析及ChatGPT概述 1
1.1 数据分析概述 1
1.1.1 用ChatGPT快速了解数据分析 1
1.1.2 数据分析与数据挖掘 4
1.1.3 机器学习算法概述 5
1.2 常用AIGC工具的注册及使用 6
1.2.1 如何使用OpenAI的GPT-3.5 6
1.2.2 如何使用百度的文心一言 10
1.2.3 如何使用科大讯飞的星火认知大模型 14
1.3 使用ChatGPT辅助工具安装 16
1.3.1 Anaconda的安装 16
1.3.2 Jupyter Notebook的使用 17
1.4 使用ChatGPT辅助Python入门 18
1.4.1 使用ChatGPT学习Python数据对象 19
1.4.2 使用ChatGPT学习NumPy 23
1.4.3 使用ChatGPT学习Pandas 25
1.5 本章小结 28
第2章 使用ChatGPT学习数据操作 29
2.1 使用ChatGPT学习数据的基本管理 29
2.1.1 数据去重 29
2.1.2 数据排序 33
2.1.3 数据合并 35
2.1.4 数据分箱 38
2.2 使用ChatGPT学习描述统计分析 40
2.2.1 描述统计分析概述 41
2.2.2 中心趋势分析 42
2.2.3 离散程度分析 45
2.2.4 分布形状分析 48
2.2.5 频数分布分析 50
2.3 使用ChatGPT学习中文文本操作 52
2.3.1 Jieba分词 52
2.3.2 添加自定义词典 55
2.3.3 关键词提取 57
2.3.4 词性标注 60
2.4 使用ChatGPT学习图像数据操作 62
2.4.1 图像的读取、显示及保存 62
2.4.2 图像像素的获取和编辑 64
2.4.3 图像的几何变换操作 65
2.5 本章小结 68
第3章 使用ChatGPT学习数据预处理 69
3.1 使用ChatGPT学习数据抽样 69
3.1.1 常用的数据抽样方法 69
3.1.2 简单随机抽样 70
3.1.3 数据分区 73
3.1.4 分层随机抽样 76
3.1.5 数据类失衡处理 79
3.2 使用ChatGPT学习数据清洗 82
3.2.1 缺失值的识别及处理 82
3.2.2 异常值的识别及处理 89
3.3 使用ChatGPT学习数据变换 91
3.3.1 数据标准化处理 91
3.3.2 数据独热编码处理 94
3.4 本章小结 96
第4章 使用ChatGPT学习数据静态可视化 97
4.1 使用ChatGPT了解数据可视化工具 97
4.2 使用ChatGPT学习Matplotlib数据可视化 98
4.2.1 Matplotlib绘图基础 99
4.2.2 使用Matplotlib绘制图形 111
4.3 使用ChatGPT学习Pandas数据可视化 130
4.3.1 Pandas绘图方法 130
4.3.2 使用Pandas绘制图形 132
4.4 使用ChatGPT学习Seaborn数据可视化 138
4.4.1 Seaborn绘图方法 139
4.4.2 使用Seaborn绘制图形 140
4.5 使用ChatGPT学习plotnine数据可视化 154
4.5.1 plotnine绘图方法 154
4.5.2 使用plotnine绘制图形 156
4.6 本章小结 158
第5章 使用ChatGPT学习交互数据可视化 159
5.1 使用ChatGPT学习Plotly数据可视化 159
5.1.1 Plotly交互可视化绘图方法 160
5.1.2 使用graph_objs进行交互可视化 161
5.1.3 使用express进行交互可视化 174
5.2 使用ChatGPT学习Bokeh数据可视化 180
5.2.1 Bokeh交互可视化绘图方法 181
5.2.2 使用Bokeh进行交互可视化 182
5.3 使用ChatGPT学习Pyecharts数据可视化 187
5.3.1 Pyecharts交互可视化绘图方法 187
5.3.2 使用Pyecharts进行交互可视化 188
5.4 本章小结 200
第6章 使用ChatGPT学习聚类分析 201
6.1 使用ChatGPT了解无监督学习 201
6.2 聚类分析方法概述 203
6.3 k均值聚类 205
6.3.1 k均值聚类的原理 205
6.3.2 k均值聚类的Python实现 206
6.3.3 案例:对iris数据集进行k均值聚类 208
6.3.4 使用统计方法寻找最佳聚类簇数 210
6.4 层次聚类 215
6.4.1 层次聚类的原理 215
6.4.2 层次聚类的Python实现 217
6.4.3 案例:对USArrests数据集进行层次聚类 218
6.4.4 使用轮廓系数寻找最佳聚类簇数 222
6.5 密度聚类 223
6.5.1 密度聚类的原理 223
6.5.2 密度聚类的Python实现 225
6.5.3 案例:对multishapes数据集进行密度聚类 226
6.6 本章小结 230
第7章 使用ChatGPT学习降维算法及关联规则分析 231
7.1 使用ChatGPT了解降维算法 231
7.2 主成分分析 233
7.2.1 主成分分析的原理 233
7.2.2 主成分分析的Python实现 234
7.2.3 案例:对iris 数据集进行主成分分析 236
7.3 关联规则分析 239
7.3.1 关联规则分析的原理 239
7.3.2 关联规则分析的Python实现 241
7.3.3 案例:对用户购买物品的行为进行关联规则分析 242
7.4 本章小结 249
第8章 使用ChatGPT学习回归分析 250
8.1 使用ChatGPT 了解常用的有监督学习算法 250
8.2 一元线性回归 252
8.2.1 一元线性回归的原理 252
8.2.2 使用scikit-learn 实现一元线性回归 254
8.2.3 案例:对women 数据集进行一元线性回归 255
8.3 多元线性回归 258
8.3.1 多元线性回归的原理 259
8.3.2 案例:对个人医疗费用进行多元线性回归 259
8.4 对自变量中有定性变量的数据集进行线性回归 263
8.4.1 对自变量中有定性变量的数据集建立线性回归模型 263
8.4.2 回归模型的效果评估 267
8.5 通过逐步回归寻找最优模型 270
8.6 逻辑回归 272
8.6.1 逻辑回归的原理 272
8.6.2 逻辑回归的Python 实现 274
8.6.3 案例:对iris 数据集进行逻辑回归 275
8.7 本章小结 276
第9章 使用ChatGPT学习决策树算法及随机森林算法 277
9.1 决策树算法的原理 277
9.1.1 决策树算法概述 277
9.1.2 常用的决策树算法 280
9.2 决策树算法的Python 实现 288
9.2.1 实现决策树算法的常用库 288
9.2.2 基于scikit-learn 实现决策树分类 289
9.3 案例:对iris 数据集进行决策树分类 290
9.3.1 构建决策树 290
9.3.2 查看生成的决策规则 291
9.3.3 决策树可视化 293
9.3.4 绘制决策边界 295
9.4 案例:对乳腺癌数据集进行决策树分类 299
9.4.1 构建决策树分类模型 299
9.4.2 对决策树分类模型进行调优 304
9.5 随机森林算法的原理及实现 305
9.5.1 常用的集成学习算法 305
9.5.2 基于scikit-learn 实现随机森林分类 307
9.5.3 案例:对乳腺癌数据集进行随机森林分类 309
9.6 本章小结 311
第10章 使用ChatGPT学习k近邻算法及支持向量机算法 312
10.1 k 近邻算法的原理 312
10.1.1 k 近邻算法的思想 312
10.1.2 k 近邻算法的推导过程 313
10.1.3 距离的度量方法 315
10.2 k 近邻算法的Python 实现 316
10.2.1 基于scikit-learn 实现k 近邻分类 316
10.2.2 案例:对乳腺癌数据集进行k 近邻分类 318
10.3 支持向量机算法的原理 322
10.3.1 了解支持向量机 323
10.3.2 常见的支持向量机模型 325
10.4 支持向量机算法的Python实现 326
10.4.1 基于scikit-learn 实现支持向量机分类 326
10.4.2 案例:对乳腺癌数据集进行支持向量机分类 328
10.5 本章小结 331
第11章 使用ChatGPT学习神经网络算法 332
11.1 神经网络算法的理论基础 332
11.1.1 了解神经网络算法 332
11.1.2 神经网络的拓扑结构 333
11.1.3 常用的激活函数 335
11.1.4 常用的神经网络模型 338
11.2 前馈神经网络 339
11.2.1 了解前馈神经网络 339
11.2.2 前馈神经网络的scikit-learn实现 341
11.2.3 案例:对乳腺癌数据集进行前馈神经网络分类 342
11.3 卷积神经网络 346
11.3.1 卷积神经网络的原理 346
11.3.2 卷积层的原理 349
11.3.3 卷积层的TensorFlow实现 352
11.3.4 池化层的原理 357
11.3.5 池化层的TensorFlow实现 359
11.3.6 全连接层 361
11.3.7 案例:使用卷积神经网络实现手写数字识别 362
11.4 本章小结 368
第12章 使用ChatGPT学习模型性能评估及优化 369
12.1 模型性能评估 369
12.1.1 数值预测的评估方法及其scikit-learn 实现 369
12.1.2 分类预测的评估方法及其scikit-learn 实现 371
12.2 模型参数优化 375
12.2.1 正则化 375
12.2.2 数据分区 377
12.2.3 K 折交叉验证 378
12.2.4 网格搜索 379
12.2.5 Dropout 381
12.2.6 梯度下降法 382
12.3 案例:对乳腺癌数据集寻找最优模型 385
12.4 本章小结 389
|
內容試閱:
|
Preface?前 言
为何写作本书
随着大数据时代的到来和人工智能技术的飞速发展,Python已经成为数据分析和机器学习领域非常受欢迎的编程语言之一。Python丰富的库和工具(如NumPy、Pandas、Matplotlib等)极大地简化了数据处理、清洗、分析及可视化的工作流程。然而,对于许多非计算机专业人士来说,Python的数据分析过程可能显得复杂而烦琐,上手难度较大。
AIGC(Artificial Intelligence Generated Content,生成式人工智能)是近年来快速发展的技术,它结合自然语言处理、深度学习等技术,能够自动生成代码、报告,甚至可进行初步的数据分析。AIGC在内容创作、辅助编程等领域的广泛应用,无疑会给Python的数据分析工作带来革新性的改变,从而极大地减少人工编写代码的时间和错误率,使工作效率和智能化程度大幅提高。
在实际工作中,数据分析人员往往面临大量的重复性劳动和复杂任务,例如数据清洗、数据转换、数据可视化、预测模型构建等。借助AIGC技术,可以有效地解决这些问题。本书将告诉初学者或没有深厚编程背景的分析人员如何运用AIGC工具,帮助他们更轻松地掌握Python数据分析技能并将其应用于实际工作中,提高数据分析的效率和洞察力。
本书主要特点
本书旨在利用ChatGPT帮助读者快速掌握使用Python进行数据分析的技能,让数据分析更加高效、精准和智能。以下是本书的主要特点。
通俗易懂,容易上手。为了便于不同层次的读者学习,采用由浅入深的讲解方式,既适用于Python初学者,也适用于有经验的数据分析人员;采用通俗易懂的语言,避免了复杂的数学公式和理论推导;书中的案例易于理解和使用,即使是初学者也能轻松上手。
内容丰富,实用性强。不仅理论丰富,而且强调实用性,内容涵盖了从数据分析基础到高级分析的各个方面,包括数据预处理、清洗、可视化、聚类、预测等。每章都提供了大量的代码示例,读者可以跟随书中的指导进行操作,实现AIGC辅助Python数据分析的实际应用。
全面涵盖主流Python库。不仅讲解了NumPy、Pandas、scikit-learn等常用的数据分析及建模库,也讲解了Matplotlib、Seaborn、Plotly、Bokeh、Pyecharts等常用的数据可视化库,还介绍了深度学习框架TensorFlow,拓展了Python在高级数据分析和预测建模中的应用。
本书阅读对象
本书是一本理论与实践相结合的书,受众广泛,阅读对象主要分为以下几类。
统计学、计算机科学和其他相关专业的学生。
数据分析师和数据科学家。
商业智能与战略规划人员。
对数据分析和人工智能感兴趣的各界人士。
如何阅读本书
本书共12章,内容涵盖了Python工具安装、数据操作、数据预处理、数据可视化及数据建模等,力求让读者掌握ChatGPT在Python数据分析各环节的应用。
第1章首先通过ChatGPT向读者介绍了数据分析的概念及常用的机器学习算法,然后分别介绍了OpenAI的GPT-3.5、百度的文心一言和科大讯飞的星火认知大模型的使用,最后介绍了如何使用ChatGPT辅助工具安装及Python入门。
第2章详细介绍了如何通过ChatGPT辅助Python进行数据操作,既包括结构化数据的常用操作,也包括文本和图像等非结构化数据的操作。
第3章介绍了如何通过ChatGPT辅助Python进行数据预处理,包括数据抽样、数据清洗和数据变换等。
第4章主要介绍了4种常用的静态数据可视化工具:Matplotlib、Pandas、Seaborn和plotnine。
第5章详细介绍了3种交互数据可视化工具:Plotly、Bokeh和Pyecharts。
第6章首先介绍了常用的无监督学习算法,重点介绍了k均值聚类、层次聚类、密度聚类的原理及Python实现,并通过案例讲解了各种聚类算法的建模及分析过程。
第7章首先通过ChatGPT介绍了常用的降维算法,然后通过ChatGPT学习了主成分分析和关联规则分析的原理及Python实现,并通过案例帮助读者掌握这两种算法的代码实现。
第8章首先通过ChatGPT介绍了常用的有监督学习算法;接着详细介绍了一元线性回归及多元线性回归的原理及Python实现,并讲解了如何对自变量中有定性变量的数据集进行线性回归以及如何通过逐步回归寻找最优模型;最后介绍了逻辑回归的原理及Python实现。
第9章首先通过ChatGPT详细介绍了ID3、C4.5和CART这3种常用的决策树算法;接着以iris(鸢尾花)数据集和乳腺癌数据集为例,详细演示了如何构建决策树以及如何通过网格搜索寻找最优决策树分类模型;最后介绍了常用的集成学习算法,演示了基于scikit-learn对乳腺癌数据集进行随机森林分类的过程。
第10章首先通过ChatGPT学习了k近邻及支持向量机这两种常用的机器学习算法;然后介绍了k近邻算法的基本原理及scikit-learn实现,对乳腺癌数据集进行了k近邻分类并通过网格搜索寻找最佳邻居数量;最后介绍了支持向量机算法的基本原理及scikit-learn实现,对乳腺癌数据集进行了支持向量机分类并通过网格搜索寻找最优的支持向量机分类模型。
第11章首先介绍了神经网络算法的理论基础,包括神经网络的基本架构、常用的激活函数及常用的神经网络模型;然后详细介绍了前馈神经网络的原理及scikit-learn实现,对乳腺癌数据集进行了前馈神经网络分类;最后详细介绍了卷积神经网络的原理、卷积层和池化层的原理,论述了如何基于TensorFlow实现卷积层和池化层,并对MNIST数据集进行了手写数字图像识别。
第12章首先介绍了数值预测和分类预测模型常用的评估方法及其scikit-learn实现,其中通过混淆矩阵构建各项指标是目前分类预测模型评估中最常用的手段;然后介绍了模型参数的优化,其中正则化、数据分区、K折交叉验证、网格搜索、Dropout、梯度下降法是目前机器学习中模型调优常用的手段。
勘误
由于笔者水平有限,加之编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请广大读者批评指正,意见或建议可发送至邮箱jiabiao1602@163.com。
最后,感谢家人一直以来的理解、陪伴和支持。谨以此书献给我最亲爱的家人以及众多数据分析爱好者和从业者!
谢佳标
2024年3月
|
|