新書推薦:
《
新任经理 100 天实战指南
》
售價:HK$
89.7
《
日本百鬼画谱
》
售價:HK$
71.3
《
大明拐点 : 天启党争
》
售價:HK$
66.7
《
纲鉴易知录评注(布面精装 全8册)
》
售價:HK$
572.7
《
官商跃迁:中国古代政商关系简史
》
售價:HK$
101.2
《
当代学术·乡族与国家:多元视野中的闽台传统社会(修订本)
》
售價:HK$
101.2
《
了不起的中国冠军:讲给孩子的奥运故事
》
售價:HK$
78.2
《
海外中国研究·北京的六分仪:中国历史中的全球潮流
》
售價:HK$
78.2
|
編輯推薦: |
1.作者团队强,拥有多个落地智能云平台项目开放经验。作者在国家重大项目和商业运营产品等不同场景下都有成功构建智能云平台系统的丰富经验的经历,借鉴和推广价值较高。 2.内容前沿,对当前智能云平台技术深入剖析。本书对智能云平台技术相关的软硬件生态、主流的智能云平台进行详细剖析和比较,对各自特色和设计初衷进行分析。 3.多维度思考,受众面广。本书分别从智能平台系统开发的角度和平台使用者的角度,对智能云平台的设计和功能进行描述,为智能云平台开发者和使用者搭建一座桥梁。 4.大量案例引导,实操性强。本书提供众多的案例来引导读者学习智能云平台的各个环节的知识。部分案例,读者只要结合自己的实际应用需求稍作修改即可使用。 5.透彻的源码分析,有工具书特性。通过对主流的开源智能平台的源码进行详尽解析,帮助读者进一步深刻地理解智能云平台的设计理念。
|
內容簡介: |
本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。 本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,也希望本书能帮助更多人在人工智能时代找到自己的方向和定位。
|
關於作者: |
孙皓 孙皓,博士,主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖,并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇,指导硕士生10余人。 郑歆慰 郑歆慰,2014年获得中国科学院大学博士学位,现为中国科学技术大学类脑智能技术及应用国家工程实验室特任副研究员,主要研究方向为机器学习系统,发表论文10余篇,是类脑智能开放平台、OpenPAI、启智社区等的活跃贡献者。 张文凯 张文凯,博士,中国科学院空天信息创新研究院地理与赛博空间信息技术研究部助理研究员,IEEE会员,主要研究方向为遥感图像处理、多模态数据处理以及智能计算平台开发。担任中国图象图形学报、IEEE Geoscience and Remote Sensing Letters、IET Image Processing、IET Intelligent Transport Systems等期刊审稿人。在国内外核心期刊上发表学术论文10余篇,其中SCI期刊收录8篇。
|
目錄:
|
第 1章 人工智能云平台简介 1
1.1人工智能发展 3
1.2人工智能云平台 4
1.3云计算与人工智能云平台 6
1.4智能框架与人工智能云平台 8
1.5人工智能云平台的主要环节与基本组成 10
1.6小结 13
参考文献 13
第 2章 人工智能云平台案例概览 15
2.1谷歌AI云平台 17
2.1.1AI Hub 17
2.1.2AI基础组件 18
2.1.3AI平台 18
2.2微软Azure机器学习平台 20
2.2.1Azure机器学习工作室 20
2.2.2Azure机器学习服务 20
2.3亚马逊 SageMaker平台 21
2.3.1Amazon SageMaker Ground Truth标注工具 22
2.3.2Amazon SageMaker模型训练与服务提供工具 22
2.3.3Amazon SageMaker推理优化与部署工具集 23
2.4企业自有智能平台 24
2.4.1业务场景闭环 25
2.4.2量身设计,灵活性强 26
2.5小结 26
参考文献 26
第3章 共享存储与数据管理 27
3.1基本概念 30
3.1.1文件系统分类 30
3.1.2存储设计目标 34
3.2古老而有活力的NFS 35
3.2.1NFS版本更迭 35
3.2.2NFS架构介绍 37
3.2.3NFS常用配置 38
3.3活跃于超算领域的Lustre 40
3.3.1Lustre架构分析 40
3.3.2Lustre与NFS 42
3.3.3Lustre发展趋势 43
3.4数据集管理 43
3.4.1TFRecord 43
3.4.2LMDB 47
3.4.3RecordIO 50
3.5小结 51
参考文献 51
第4章 资源管理与调度 53
4.1概述 55
4.1.1工作流 55
4.1.2资源的定义 56
4.1.3资源隔离 56
4.2Docker简介 57
4.2.1什么是Docker? 57
4.2.2Docker组成 58
4.2.3Docker工作流程 59
4.2.4NVIDIA Docker 60
4.3任务调度系统架构简介 60
4.4基于YARN的调度系统实现 63
4.4.1系统架构 63
4.4.2部署说明 64
4.4.3业务流程 65
4.4.4GPU支持 65
4.5基于Kubernetes的调度系统实现 69
4.5.1系统架构 70
4.5.2业务流程 71
4.5.3GPU支持 72
4.6小结 75
参考文献 75
第5章 运维监控系统 77
5.1Prometheus概述 79
5.1.1Prometheus的特点和适用场景 79
5.1.2Prometheus组成架构 80
5.1.3Prometheus核心概念 81
5.2数据采集之Exporter 82
5.2.1Node Exporter 84
5.2.2NVIDIA GPU Exporter 88
5.2.3Prometheus的部署 90
5.3数据格式与编程Prometheus查询语言 91
5.3.1初识PromQL 92
5.3.2PromQL 操作符 92
5.3.3PromQL函数 96
5.4数据可视化之Grafana 98
5.4.1创建Prometheus数据源 99
5.4.2创建数据可视化图形 99
5.5告警系统之AlertManager 99
5.5.1安装和部署 100
5.5.2配置Prometheus使之与AlertManager进行通信 103
5.5.3在Prometheus中创建告警规则 105
5.6小结 106
参考文献 106
第6章 机器学习框架 107
6.1 SciPy 109
6.1.1什么是SciPy? 109
6.1.2SciPy的特点 109
6.1.3使用示例 110
6.2scikit-learn 111
6.2.1什么是scikit-learn? 111
6.2.2scikit-learn的六大功能 112
6.2.3scikit-learn示例 113
6.3Pandas 116
6.3.1什么是Pandas? 116
6.3.2Pandas的特点 116
6.3.3Pandas示例 117
6.4Spark MLlib和Spark ML 119
6.4.1什么是Spark MLlib和Spark ML? 119
6.4.2Spark使用示例 119
6.5 XGBoost 121
6.5.1什么是XGBoost? 121
6.5.2XGBoost的特点 121
6.5.3XGBoost功能和示例 122
6.6 TensorFlow 127
6.6.1什么是TensorFlow? 127
6.6.2TensorFlow的特点 128
6.6.3TensorFlow使用示例 128
6.7PyTorch 132
6.7.1什么是PyTorch? 132
6.7.2PyTorch的特点 133
6.7.3PyTorch使用示例MNIST分类 133
6.8其他 136
6.8.1Apache MXNet 136
6.8.2Caffe 136
6.8.3CNTK 137
6.8.4Theano 138
6.9小结 139
参考文献 140
第7章 分布式并行训练 141
7.1并行训练概述 143
7.2并行编程工具 144
7.3深度学习中的并行 146
7.3.1算法并行优化 146
7.3.2网络并行优化 148
7.3.3分布式训练优化 151
7.4小结 167
参考文献 167
第8章 自动机器学习 169
8.1AutoML概述 171
8.2特征工程 172
8.3模型选择 175
8.4优化算法选择 177
8.5神经架构搜索 178
8.5.1NAS综述 178
8.5.2细分领域的NAS应用 180
8.5.3NAS应用示例 182
8.6搜索优化和评估 187
8.6.1搜索策略 187
8.6.2评估策略 189
8.7小结 190
参考文献 190
第9章 模型构建与发布 193
9.1模型构建流程 195
9.2基于TensorFlow构建方案 195
9.2.1神经网络模型训练 196
9.2.2神经网络模型保存 199
9.2.3使用命令行工具检测 SavedModel 200
9.2.4使用contrib.predictor提供服务 201
9.2.5使用TensorFlow Serving提供服务 202
9.3基于Seldon Core的模型部署 205
9.3.1Seldon Core安装 206
9.3.2Seldon Core使用示例 207
9.4小结 209
参考文献 210
第 10章 可视化开发环境 211
10.1Jupyter Notebook 213
10.2PyCharm 216
10.3Visual Studio Code 218
10.3.1资源管理器 219
10.3.2搜索 219
10.3.3源代码管理器 219
10.3.4调试 220
10.3.5扩展插件 221
10.3.6管理 221
10.3.7VSCode开发Python 222
10.4code-server 223
10.4.1code-server安装 223
10.4.2code-server启动 224
10.4.3code-server安装插件 224
10.5TensorBoard 227
10.6小结 230
参考文献 230
第 11章 DIGITS实践 231
11.1DIGITS配置 233
11.1.1DIGITS安装 233
11.1.2DIGITS启动 234
11.2DIGITS示例 235
11.2.1图像分类 235
11.2.2语义分割 239
11.3DIGITS源码解析 245
11.3.1DIGITS功能介绍 248
11.3.2类继承关系 251
11.4小结 258
参考文献 259
第 12章 Kubeflow实践 261
12.1什么是Kubeflow? 263
12.2Kubeflow部署 264
12.3JupyterHub 268
12.3.1JupyterHub定义 268
12.3.2JupyterHub子系统 268
12.3.3JupyterHub子系统交互 268
12.4Kubeflow-operator 270
12.4.1tf-operator 270
12.4.2pytorch-operator 281
12.5Katib 286
12.5.1Katib组成模块 286
12.5.2Katib模块超参数优化 287
12.5.3Katib实验运行基本流程 288
12.5.4Kubeflow 路线图 289
12.6小结 289
参考文献 290
第 13章 OpenPAI实践 291
13.1直观感受 294
13.1.1部署OpenPAI 294
13.1.2提交一个hello-world任务 297
13.1.3作业配置与环境变量 298
13.2平台架构 301
13.2.1服务列表 302
13.2.2工作流 303
13.2.3资源分配 304
13.3集群运维 304
13.3.1可视化页面的集群管理 304
13.3.2命令行管理维护工具paictl.py 305
13.4OpenPAI代码导读 308
13.4.1在YARN中对GPU调度的支持Hadoop-AI 310
13.4.2YARN作业的编排服务FrameworkLauncher 321
13.5小结 328
参考文献 329
|
|