新書推薦:
《
打好你手里的牌(斯多葛主义+现代认知疗法,提升当代人的心理韧性!)
》
售價:HK$
66.1
《
新时代硬道理 广东寻路高质量发展
》
售價:HK$
77.3
《
6S精益管理实战(精装版)
》
售價:HK$
100.6
《
异域回声——晚近海外汉学之文史互动研究
》
售價:HK$
109.8
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:HK$
99.7
《
无端欢喜
》
售價:HK$
76.2
《
股票大作手操盘术
》
售價:HK$
53.8
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:HK$
87.4
|
編輯推薦: |
本书将基础理论和实际案例相结合,循序渐进地介绍了大数据与人工智能方面的知识,并配以大量案例。
|
內容簡介: |
本书将基础理论和实际案例相结合,循序渐进地介绍大数据与人工智能方面的知识,全面、系统地介绍大数据与人工智能的算法概念和适用范畴,并通过11个具体案例分别阐述人工智能和大数据技术在生产生活中的应用。全书共20章,第1~9章分别介绍大数据与人工智能的发展历史、数据工程、机器学习算法、深度学习与神经网络、大数据存储技术、Hadoop MapReduce解析、Spark解析、分布式数据挖掘算法和PyTorch解析等知识,第10~20章为大数据技术和机器学习技术相结合的一些案例。 本书主要面向广大数据工程与人工智能的初学者、高等院校的师生,以及相关领域的从业人员。
|
目錄:
|
第1章 绪论
1.1日益增长的数据
1.1.1大数据的基本概念
1.1.2大数据的基本特征
1.1.3大数据的发展历程
1.2人工智能初窥
1.2.1人工智能的历史
1.2.2人工智能的发展现状
1.2.3人工智能的发展前景
1.2.4大数据与人工智能
第2章 数据工程
2.1数据工程的一般流程
2.2数据获取
2.2.1数据采集方法
2.2.2大数据采集平台
2.3数据存储与数据仓库
2.3.1数据存储
2.3.2数据仓库
2.4数据预处理
2.4.1数据清理
2.4.2数据集成
2.4.3数据变换
第3章 机器学习算法
3.1算法概述
3.1.1线性回归
3.1.2逻辑回归
3.1.3线性判别分析
3.1.4分类与回归树分析
3.1.5朴素贝叶斯
3.1.6k最近邻算法
3.1.7学习矢量量化
3.1.8支持向量机
3.1.9Bagging和随机森林
3.1.10Boosting和AdaBoost
3.2支持向量机算法
3.2.1线性支持向量机
3.2.2非线性支持向量机
3.2.3支持向量机算法求解
3.3逻辑回归算法
3.3.1线性回归算法
3.3.2逻辑回归
3.3.3用PyTorch实现逻辑回归算法
3.4聚类算法
3.4.1KMeans聚类
3.4.2均值漂移聚类
3.4.3基于密度的聚类方法
3.5机器学习算法总结
3.5.1逻辑回归和朴素贝叶斯
3.5.2逻辑回归和支持向量机
3.5.3Bagging、随机森林和Boosting
第4章 深度学习
4.1神经网络基础知识
4.1.1深度神经网络
4.1.2正向传播
4.1.3激活函数
4.2神经网络的训练
4.2.1神经网络的参数
4.2.2向量化
4.2.3价值函数
4.2.4梯度下降和反向传播
4.3神经网络的优化和改进
4.3.1神经网络的优化策略
4.3.2交叉验证
4.3.3正则化方法
4.4卷积神经网络
4.4.1卷积运算
4.4.2池化层
4.4.3CNN实例
4.5深度学习的优势
4.5.1计算机视觉
4.5.2自然语言处理
4.5.3强化学习
4.6深度学习训练与推理框架
4.6.1训练框架
4.6.2推理框架
第5章 大数据存储
5.1大数据存储技术发展
5.2海量数据存储的关键技术
5.2.1数据分片与路由
5.2.2数据复制与一致性
5.3重要数据结构和算法
5.3.1Bloom Filter
5.3.2LSM Tree
5.3.3Merkle Tree
5.3.4Cuckoo Hash
5.4分布式文件系统
5.4.1文件存储格式
5.4.2GFS
5.4.3HDFS
5.5分布式数据库NoSQL
5.5.1NoSQL数据库概述
5.5.2KV数据库
5.5.3列式数据库
5.6HBase数据库搭建与使用
5.6.1HBase伪分布式运行
5.6.2HBase分布式运行
第6章 Hadoop MapReduce解析
6.1Hadoop MapReduce架构
6.2MapReduce工作机制
6.2.1Map
6.2.2Reduce
6.2.3Combine
6.2.4Shuffle
6.2.5Speculative Task
6.2.6任务容错
6.3应用案例
6.3.1WordCount
6.3.2WordMean
6.3.3Grep
第7章 Spark解析
7.1Spark RDD
7.2Spark与MapReduce的比较
7.3Spark工作机制
7.3.1DAG
7.3.2Partition
7.3.3容错机制
7.3.4内存管理
7.3.5数据持久化
7.4数据读取
7.5应用案例
7.5.1日志挖掘
7.5.2判别西瓜好坏
第8章 分布式数据挖掘算法
8.1KMeans聚类算法
8.1.1KMeans并行化思路
8.1.2KMeans分布式实现
8.2逻辑回归算法实现
8.2.1逻辑回归算法并行化思路
8.2.2逻辑回归算法分布式实现
8.3朴素贝叶斯分类算法
8.3.1朴素贝叶斯分类算法并行化思路
8.3.2朴素贝叶斯分布式实现
第9章 PyTorch解析
9.1PyTorch的基本知识
9.1.1PyTorch概述
9.1.2PyTorch与其他深度学习框架的比较
9.2PyTorch基本操作
9.2.1Tensor对象及其运算
9.2.2Tensor的索引和切片
9.2.3Tensor的变换、拼接和拆分
9.2.4PyTorch的归纳操作
9.2.5PyTorch的自动微分
9.3应用案例
9.3.1在Spark上训练和运行PyTorch模型
9.3.2用PyTorch进行手写数字识别
第10章 案例: Hadoop平台的搭建和数据分析
10.1构建虚拟机网络
10.1.1VirtualBox安装及配置
10.1.2Ubuntu虚拟机安装及配置
10.1.3修改Ubuntu系统内网络配置
10.2大数据环境安装
10.2.1Java安装
10.2.2Hadoop安装
10.3应用案例
10.3.1日志分析
10.3.2交通流量分析
第11章 案例: 基于Spark的搜索引擎日志用户行为分析
11.1功能需求
11.1.1搜索引擎用户行为分析的意义
11.1.2搜索引擎日志概述
11.2系统架构
11.2.1用户搜索流程
11.2.2系统架构设计
11.3功能实现
11.3.1Spark本地运行环境搭建
11.3.2搜索引擎日志数据获取
11.3.3分析指标
11.3.4Spark任务提交
第12章 案例: 使用Spark实现数据统计分析及性能优化
12.1系统架构
12.1.1总体方案
12.1.2详细设计
12.1.3优化设计
12.2具体实现
12.2.1数据获取
12.2.2数据可视化
12.3性能优化
12.3.1读取优化
12.3.2查询优化
12.3.3Spark参数级优化
第13章 案例: 使用Spark和HBase实现商品批量存储
13.1HBase数据库设计
13.2复杂数据处理
13.2.1数据读取
13.2.2压缩信息
13.2.3解压信息
13.3数据读写
13.3.1从Hive获取数据表
13.3.2将数据复制到HBase集群
13.3.3读取数据
第14章 案例: 使用Keras进行人脸关键点检测
14.1深度学习模型
14.1.1数据集获取
14.1.2卷积神经网络的搭建与训练
14.2模型评价
14.2.1关键点坐标可视化
14.2.2训练历史可视化
第15章 案例: 使用PyTorch实现基于词级别的情感分析
15.1数据集处理
15.2模型搭建
15.2.1MemNet模型
15.2.2IAN模型
15.2.3AOA模型
15.3训练和评测
第16章 案例: 短语视觉定位
16.1短语视觉定位概述
16.2相关工作
16.2.1问题定义
16.2.2先前方法
16.3方法
16.3.1概述
16.3.2特征编码
16.3.3邻域交互模块
16.3.4全局交互模态
16.3.5模态间融合
16.3.6多模态对齐
16.3.7训练与预测
16.4代码与实现
16.5实验
16.5.1数据集
16.5.2实现细节
16.5.3实验结果
第17章 案例: 使用PyTorch进行视觉问答
17.1视觉问答简介
17.2基于BottomUp Attention的联合嵌入模型
17.3准备工作
17.3.1下载数据
17.3.2安装必需的软件包
17.3.3使用配置文件
17.4实现基础模块
17.4.1FCNet模块
17.4.2SimpleClassifier模块
17.5实现问题嵌入模块
17.5.1词嵌入
17.5.2RNN
17.6实现TopDown Attention模块
17.7组装完整的VQA系统
17.8运行VQA实验
17.8.1训练
17.8.2可视化
第18章 案例: 使用Hadoop和MapReduce分布式计算语料中单词出现的频数
18.1MapReduce介绍
18.2MapReduce实现WordCount程序
18.2.1上传数据到HDFS
18.2.2使用Hadoop运行WordCount程序
18.2.3停止Hadoop
第19章 案例: 使用多种机器学习算法实现基于用户行为数据的用户分类器
19.1基于机器学习的分类器的技术概述
19.2工程数据的提取聚合和存储
19.2.1数据整合的逻辑流程
19.2.2Sqoop数据同步
19.2.3基于Hive的数据仓库
19.2.4基于Azkaban的数据仓库的调度任务
19.2.5数据仓库的数据集成和数据清洗
19.2.6整合后的数据表
19.3数据展示和分析
19.3.1数据集的选取和业务背景的描述
19.3.2各维度信息详细说明
19.3.3各维度数据的描述性统计
19.3.4各维度数据的可视化
19.4特征工程
19.4.1标准化
19.4.2区间缩放
19.4.3归一化
19.4.4对定性特征进行独热(onehot)编码
19.4.5缺失值填补
19.4.6数据倾斜
19.5模型训练和结果评价
19.5.1构造模型思路
19.5.2模型训练的流程
19.5.3Kfold交叉验证
19.6各分类器模型的训练和结果评价
19.6.1利用Python的sklearn包进行模型训练的过程梳理
19.6.2逻辑回归模型的训练和结果评价
19.6.3k最近邻模型的训练和结果评价
19.6.4线性判别分析模型的训练和结果评价
19.6.5朴素贝叶斯算法的模型的训练和结果评价
19.6.6决策树模型的训练和结果评价
19.6.7支持向量机模型的训练和结果评价
19.7模型提升——集成分类器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost实现过程及实验结果
第20章 案例: 构建苹果叶病病害分类模型
20.1细粒度图像识别概述
20.2Spark集群的使用
20.3细粒度植物数据处理
20.3.1原始数据集分析处理
20.3.2实验数据集准备
20.4使用PyTorch训练模型
20.4.1模型训练流程
20.4.2卷积神经网络模型选择
20.4.3损失函数
20.4.4训练策略
20.5模型评估
20.5.1模型效果
20.5.2模型结果分析
附录A用户历史充值情况数据表
附录B用户各类订单余额情况
附录C各省用户收到公示消息后的充值情况
参考文献
|
內容試閱:
|
随着近年来数据科学的发展,人们记录信息的方式和量级不断地发生改变,数据的数量逐渐增多,种类逐渐复杂化,大数据技术得到了广泛的应用。
同时,在大数据时代,人工智能相关技术也得到了越来越多的关注,市场对于人工智能产品的呼声也越来越高。人工智能作为大数据应用的重要出口,在与大数据应用结合的过程中将会得到更广泛的应用。
本书将大数据与人工智能基础理论和实际案例相结合,适合初学者学习。读者可以在短时间内学习本书介绍的知识和概念。作为一本关于大数据与人工智能的书籍,本书共有20章。其中,第1~9章为概念和一些理论知识的介绍,第10~20章为11个实际项目案例。各章的内容如下。
第1章主要阐述大数据与人工智能的概念和发展,并对大数据与人工智能的结合趋势进行预测。
第2章阐述数据工程的一般流程,其中包括数据获取、数据存储和数据预处理技术的详细内容。
第3章主要介绍机器学习的常用算法及其实现细节。算法包括线性回归、逻辑回归、线性判别分析、分类与回归树分析、朴素贝叶斯、k最近邻算法、学习矢量量化、支持向量机、Bagging、随机森林、Boosting和AdaBoost。
第4章主要介绍深度学习的相关知识,即神经网络的基础知识和算法理论。首先介绍神经网络的基础知识; 其次讲解神经网络的训练过程,包括神经网络的参数、向量化、价值函数、梯度下降和反向传播; 然后讲解神经网络的优化和改进方式,卷积神经网络的结构; 最后讲解深度学习的优势及其框架。
第5章介绍大数据存储技术。首先介绍大数据存储技术的发展; 其次介绍海量数据存储的关键技术,包括数据分片与路由,数据复制与一致性; 再次介绍重要数据结构和算法; 然后介绍分布式文件系统和分布式数据库NoSQL; 最后讲解HBase数据库的搭建与使用。
第6章主要是对Hadoop MapReduce的解析。首先介绍Hadoop MapReduce架构; 其次介绍MapReduce的工作机制,包括Map、Reduce、Combine、Shuffle、Speculative Task和任务容错; 最后通过三个应用案例介绍MapReduce分布式计算框架在实际中的应用方式。
第7章是对Spark分布式计算框架的解析。首先介绍Spark RDD; 其次对比了Spark和MapReduce; 再次介绍Spark的工作机制,包括DAG、Partition、Lineage容错方法、内存管理和数据持久化; 然后讲解Spark读取数据的方式; 最后通过两个应用案例对Spark在实际中的应用进行解析。
第8章介绍分布式数据挖掘算法。首先介绍KMeans聚类算法,并对其并行化思路和分布式实现展开讲解; 其次从并行化思路和分布式实现两方面介绍逻辑回归算法; 最后讲解朴素贝叶斯分类算法的设计思路和实现方案。
第9章主要介绍PyTorch深度学习框架。首先介绍PyTorch的基础知识; 其次阐述Tensor相关的PyTorch深度学习基本操作; 最后通过在Spark上运行PyTorch模型和利用PyTorch手写数字识别的应用案例讲解PyTorch框架的使用方法。
第10~20章为11个实际应用中的实战案例。其中,第10~13章为大数据技术的实战案例; 第14~17章为深度学习的案例; 第18~20章包含三个大数据技术和机器学习、深度学习相结合的案例。
本书的主要特点如下。
(1) 结构清晰,理论阐述简洁明了,可读性强。
(2) 以案例为导向,对基础知识和算法理论点在实际中的应用进行详细讲解。
(3) 实战案例丰富,涵盖9个章节的小案例和11个完整项目案例。
(4) 11个完整项目案例都有视频讲解。
(5) 代码详尽,避免对 API 的形式展示,规避重复代码。
(6) 各个数据库相对独立,数学原理相对容易理解。
为便于教学,本书配有源代码。获取源代码和数据集方式: 先扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。
本书的作者为吕云翔、钟巧灵、郭婉茹、王渌汀、韩雪婷、郭宇光、杜宸洋、仇善召、余志浩、杨卓谦、樊子康、李牧锴、刘卓然、袁琪、关捷雄、华昱云、陈妙然、许鸿智、贺祺,曾洪立参与了部分内容的编写及资料整理工作。
在本书的编写中参考了诸多相关资料,在此向资料的作者表示衷心的感谢。
限于作者水平和时间仓促,书中难免存在疏漏之处,欢迎读者批评指正。
作者2022年6月
|
|