新書推薦:
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
155.7
《
UE5虚幻引擎必修课(视频教学版)
》
售價:HK$
110.9
《
真需求
》
售價:HK$
110.9
《
阿勒泰的春天
》
售價:HK$
50.4
《
如见你
》
售價:HK$
51.3
《
人格阴影 全新修订版,更正旧版多处问题。国际分析心理学协会(IAAP)主席力作
》
售價:HK$
67.0
《
560种野菜野果鉴别与食用手册
》
售價:HK$
67.1
《
中国官僚政治研究(一部洞悉中国政治制度演变的经典之作)
》
售價:HK$
62.7
|
內容簡介: |
本书提供了一系列将数据转化为重要结论的现实案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助读者了解数据从而找到相应的模式、趋势、相互关系以及重要结论。书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言,并采用代码片段和详细描述的方式呈现本书的核心概念。
|
關於作者: |
作 者 简 介About the AuthorHector Cuesta Dataxios(一家机器智能研发公司)的创办人及首席数据科学家,拥有信息学士及计算机科学硕士学位。他在金融、零售、金融科技、在线学习、人力资源等领域提供数据驱动产品设计的咨询服务。在空闲时间,他热衷于研究机器人。可以关注他的推特:https:twitter.comhmCuesta。本书献给我的妻子Yolanda和我可爱的孩子Damian和Issac,他们为我的生活带来了无比的快乐。同时把本书献给我的父母Elena和Miguel,感谢他们对我的支持和爱护。Dr. Sampath Kumar Telangana大学应用统计系的助理教授和系主任,他拥有理学硕士、哲学硕士和统计学博士学位,拥有5年研究生教学经验,有超过4年的工作经验。他是SAS和MATLAB软件高级程序员,专长是利用SPSS、SAS、R、Minitab、MATLAB等软件进行数据统计。他在不同的应用学科和纯统计专业(如预测建模、应用回归分析、多变量数据分析、运营管理等)方面具有教学经验。
|
目錄:
|
目录Contents译者序作者简介审校者简介前言第1章 开始11.1 计算机科学11.2 人工智能21.3 机器学习21.4 统计学21.5 数学21.6 专业领域知识31.7 数据、信息和知识31.7.1 数据、信息和知识之间的相互性31.7.2 数据的本质41.8 数据分析过程51.8.1 问题61.8.2 数据准备61.8.3 数据探索71.8.4 预测建模71.8.5 结果可视化81.9 定量与定性数据分析91.10 数据可视化的重要性91.11 大数据101.12 自我量化121.12.1 传感器和摄像头121.12.2 社交网络分析131.13 本书的工具和练习131.13.1 为什么使用 Python141.13.2 为什么使用mlpy141.13.3 为什么使用D3.js141.13.4 为什么使用 MongoDB151.14 小结15第2章 数据预处理162.1 数据源162.1.1 开源数据172.1.2 文本文件182.1.3 Excel文件182.1.4 SQL数据库182.1.5 NoSQL数据库192.1.6 多媒体202.1.7 网页检索202.2 数据清洗222.2.1 统计方法232.2.2 文本解析232.2.3 数据转化252.3 数据格式252.3.1 CSV262.3.2 JSON272.3.3 XML282.3.4 YAML292.4 数据归约302.4.1 过滤及抽样302.4.2 分箱算法302.4.3 降维312.5 开始使用OpenRefine工具322.5.1 text facet332.5.2 聚类332.5.3 文本过滤器342.5.4 numeric facet342.5.5 数据转化352.5.6 数据输出362.5.7 操作历史记录362.6 小结37第3章 可视化383.1 可视化概述393.2 利用网页版的可视化393.3 探索科学可视化393.4 在艺术上的可视化403.5 可视化生命周期403.6 可视化不同类型的数据413.6.1 HTML413.6.2 DOM423.6.3 CSS423.6.4 JavaScript433.6.5 SVG433.7 开始使用D3.js433.7.1 柱状图443.7.2 饼图483.7.3 散点图503.7.4 单线图523.7.5 多线图553.8 交互与动画593.9 社交网络中的数据613.10 可视化分析的摘要623.11 小结62第4章 文本分类634.1 学习和分类634.2 贝叶斯分类644.3 E-mail主题测试器654.4 数据664.5 算法684.6 分类器的准确性714.7 小结73第5章 基于相似性的图像检索745.1 图像相似性搜索745.2 动态时间规整755.3 处理图像数据集775.4 执行DTW775.5 结果分析795.6 小结81第6章 模拟股票价格826.1 金融时间序列826.2 随机漫步模拟836.3 蒙特卡罗方法846.4 生成随机数856.5 用D3.js实现866.6 计量分析师916.7 小结93第7章 预测黄金价格947.1 处理时间序列数据947.2 平滑时间序列977.3 线性回归1007.4 数据—历史黄金价格1017.5 非线性回归1017.5.1 核岭回归1027.5.2 平滑黄金价格时间序列1047.5.3 平滑时间序列的预测1057.5.4 对比预测值1067.6 小结107第8章 使用支持向量机的方法进行分析1088.1 理解多变量数据集1098.2 降维1118.2.1 线性无差别分析1128.2.2 主成分分析1128.3 使用支持向量机1148.3.1 核函数1158.3.2 双螺旋问题1168.3.3 在mlpy中实现SVM1168.4 小结119第9章 应用细胞自动机的方法对传染病进行建模1209.1 流行病学简介1209.2 流行病模型1229.2.1 SIR模型1229.2.2 使用SciPy来解决SIR模型的常微分方程1239.2.3 SIRS模型1249.3 对细胞自动机进行建模1259.3.1 细胞、状态、网格和邻域1269.3.2 整体随机访问模型1279.4 通过D3.js模拟CA中的SIRS模型1279.5 小结135第10章 应用社交图谱13610.1 图谱的结构13610.1.1 无向图13710.1.2 有向图13710.2 社交网络分析13710.3 捕获Facebook图谱13810.4 使用Gephi再现图谱13910.5 统计分析14210.6 度的分布14410.6.1 图谱直方图14510.6.2 集中度14610.7 将GDF转化为JSON14810.8 在D3.js环境下进行图谱可视化15010.9 小结154第11章 分析Twitter数据15511.1 解析Twitter数据15511.1.1 tweet15611.1.2 粉丝15611.1.3 热门话题15611.2 使用OAuth访问Twitter API15711.3 开始使用Twython15811.3.1 利用Twython进行简单查询15911.3.2 获取时间表数据16311.3.3 获取粉丝数据16511.3.4 获取地点和趋势信息16711.3.5 获取用户数据16811.3.6 API流16911.4 小结171第12章 使用MongoDB进行数据处理和聚合17212.1 开始使用MongoDB17212.1.1 数据库17312.1.2 集合17512.1.3 文件17512.1.4 Mongo shell17512.1.5 InsertUpdateDelete17612.1.6 查询17712.2 数据准备17812.2.1 使用OpenRefine进行数据转换17912.2.2 通过PyMongo插入文件18012.3 分组18212.4 聚合框架18412.4.1 流水线18412.4.2 表达式18512.5 小结186第13章 使用MapReduce方法18813.1 MapReduce概述18813.2 编程模型18913.3 在MongoDB中使用MapReduce19013.3.1 map函数19013.3.2 reduce函数191
|
內容試閱:
|
前言Preface本书提供了一系列将数据转化为重要结论的现实案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书旨在帮助读者了解数据从而找到相应的模式、趋势、相互关系以及重要结论。书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言,并采用代码片段和详细描述的方式呈现本书的核心概念。本书主要内容第1章探讨数据分析的基本原理和数据分析步骤。第2章解释如何清洗并准备好数据来开展分析,同时介绍数据清洗工具OpenRefine的使用方法。第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。第4章介绍应用朴素贝叶斯(Naive Bayes)算法来区分垃圾文本的一种二元分类法。第5章展示一个应用动态时间规整方法来寻找图像间相似性的项目。第6章解释如何使用随机漫步算法和可视化的D3.js动画技术来模拟股票价格。第7章介绍核岭回归(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。第8章描述如何使用支持向量机的方法进行分类分析。第9章介绍对流行病进行模拟计算的基本概念并解释如何应用细胞自动机方法、D3.js和JavaScript语言来模拟流行病爆发。第10章解释如何应用Gephi从Facebook获取社交媒体图谱并使之实现可视化。第11章解释如何应用Twitter的应用程序编程接口(API)来获取Twitter的数据。读者也将看到如何改进文本分类分析方法并将其应用于情感分析。这一过程在自然语言工具包(Natural Language Toolkit, NLTK)中应用了朴素贝叶斯算法。第12章介绍在MongoDB数据库中进行基本操作以及分组、过滤和聚合的方法。第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型。第14章解释如何使用Wakari平台,同时介绍在IPython中运用pandas进行数据处理和使用PIL图像处理库的方法。第15章介绍如何在Cloudera VM上使用分布式文件系统及数据环境。最后,利用实际案例介绍Apache Spark的主要特征。阅读准备使用本书需要掌握如下技术:PythonOpenRefineD3.jsmlpyNLTKGephiMongoDB读者对象本书主要面向那些希望能够实际开展数据分析和数据可视化的软件开发人员、分析人员、计算机科学家。同时,本书也希望能够为读者提供包含时间序列数据、数值型数据、多维度数据和社交媒体数据、文本型数据等多种数据形式的实际案例,以帮助读者获得对数据分析的真知灼见。读者不需要具备数据分析的经验,但仍需要对统计学和Python编程有基础性的了解。下载本书相关资源读者可登录华章网站(http:www.hzbook.com)下载本书的相关资源。
|
|