新書推薦:
《
新加坡教育:神话与现实
》
售價:HK$
98.9
《
“口袋中的世界史”第一辑·冷战中的危机事件
》
售價:HK$
299.0
《
绝美的奥伦堡蕾丝披肩编织
》
售價:HK$
181.7
《
狂飙年代:18世纪俄国的新文化和旧文化(第二卷)
》
售價:HK$
177.0
《
万有引力书系 纳粹亿万富翁 德国财富家族的黑暗历史
》
售價:HK$
112.7
《
中国常见植物野外识别手册:青海册
》
售價:HK$
78.2
《
三星堆对话古遗址(从三星堆出发,横跨黄河流域,长江流域,对话11处古遗址,探源多元一体的中华文明)
》
售價:HK$
89.7
《
迷人的化学(迷人的科学丛书)
》
售價:HK$
147.2
|
編輯推薦: |
1.本书是《大数据》编委会针对校企合作的精心力作。 2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。 3.本书旨在介绍数据挖掘的基础知识,以及人工智能算法,为即将学习大数据技术的读者奠定基础。 4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。 5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。 6.本书提供丰富的教学资源,包括电子课件、实验设计等。
|
內容簡介: |
这是一本全面介绍数据挖掘与机器学习的大数据专业类图书,阅读本书可以提升读者对大数据分析与挖掘的认知及动手能力。本书共 10 章,由浅入深地讲解数据挖掘与机器学习的基本概念与流程、相关 算法与实现工具。全书理论与实践相结合,既有新技术的深度,也有行业应用的广度,使读者可以全面了解数据挖掘与机器学习相关技术。 本书可以作为高等学校计算机、数据科学与大数据技术等相关专业“机器学习”或者“数据挖掘”课程的教材,也可作为从事机器学习与数据挖掘、数据分析相关工作的技术人员的参考书。
|
關於作者: |
许桂秋,北京中科特瑞科技有限公司运营总监,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等教材。
|
目錄:
|
第 1 章13 数据挖掘与机器学习概述13 1.1 数据挖掘与机器学习的发展史13 1.1.1 数据时代13 1.1.2 数据挖掘的技术发展14 1.1.3 机器学习的技术发展17 1.1.4 人工智能、数据挖掘与机器学习的关系20 1.2 数据挖掘与机器学习的相关概念21 1.2.1 数据挖掘的定义21 1.2.2 机器学习的定义21 1.2.3 数据库与数据仓库22 1.3 数据挖掘与机器学习的算法分类24 1.3.1 类/概念描述:特征和区分25 1.3.2 回归(regression)26 1.3.3 分类(classification)27 1.3.4 预测(forecasting)28 1.3.5 关联分析(association)28 1.3.6 聚类分析(cluster)29 1.3.7 异常检测(anomalydetection)30 1.3.8 迁移学习31 1.3.9 强化学习31 1.3.10 小结32 1.4 数据挖掘与机器学习的一般流程33 1.4.1 确定分析目标33 1.4.2 收集数据33 1.4.3 整理预处理33 1.4.4 数据建模34 1.4.5 模型训练35 1.4.6 模型评估35 1.4.7 模型应用35 1.5 数据挖掘与机器学习的应用领域35 1.5.1 电子商务36 1.5.2 金融领域36 1.5.3 医疗领域37 1.5.2 通信领域37 1.5.3 自然语言处理37 1.5.4 工业领域40 1.5.5 艺术创作41 1.5.6 数据挖掘与机器学习应用的问题41 第 2章43 数据科学分析入门43 2.1 数据科学分析库43 2.2 数据科学分析库的基本使用59 2.2.1 numpy基本使用59 2.2.2 pandas基本使用63 2.2.3 matplotlib基本使用70 2.2.4 Scikit-Learn基本使用80 2.2.5综合案例84 第3章100 回归算法与应用100 3.1 回归预测问题100 3.1.1 介绍100 3.1.2 常见回归数据集101 3.2 线性回归104 3.2.1 原理与应用场景104 3.2.2 一元线性回归的python实现105 3.2.3 Python实现多元线性回归算法107 3.2.4 多元线性回归算法优缺点108 3.3 Logistic回归108 3.3.1 原理与应用场景109 3.3.2 Logistic回归的python实现109 第4章112 4.1 数据挖掘分类112 4.1.1 数据挖掘分类112 4.1.2 常见的分类数据集113 4.2 KNN算法118 4.2.1 K最近邻算法概述118 4.2.2 K最近邻算法实现电影分类120 4.2.3 使用Python实现KNN算法128 4.3 向量空间模型129 4.3.1 原理与应用场景129 4.3.2 空间向量模型应用130 4.4 支持向量机133 4.4.1 支持向量机133 4.4.2 支持向量机实现分类135 4.4.3 支持向量机实现回归136 4.4.4 支持向量机异常检测136 4.4.5 线性可分与线性不可分139 4.4.6 SVM鸢尾花分类143 4.4.7 软间隔145 4.4.8 GridSearchCV确定超参数148 4.4.9 过拟合问题150 4.5 决策树154 4.5.1 决策树154 4.5.2 ID3算法156 4.5.3 决策树实现分类159 4.5.4 决策树实现回归166 4.6 集成学习170 4.6.1 集成学习170 4.6.2 随机森林177 4.7 模型的评判和保存181 第5章186 聚类算法与应用186 5.1 无监督学习问题186 5.1.1 无监督学习186 5.1.2 聚类分析的基本概念与原理187 5.1.3 常见聚类数据集187 5.2 划分聚类189 5.2.1 划分聚类189 5.2.2 K-Means算法190 5.2.4 K-Means算法在鸢尾花应用195 5.2.4 使用聚类进行图像压缩197 5.2.5 Numpy实现K_Means聚类199 5.3 层次聚类200 5.3.1 层次聚类算法200 5.3.2 使用层次聚类算法聚类202 5.3.3 基于运营商基站信息挖掘商圈204 5.4 聚类效果评测207 第6章209 关联规则与协同过滤209 6.1 推荐算法简介209 6.1.1 推荐算法的概念209 6.2 关联规则210 6.2.1 什么是关联规则?210 6.2.2 关联规则的挖掘过程211 6.2.3 Apriori算法212 6.3 协同过滤224 6.3.1 协同过滤算法的概念224 6.3.2 基于用户的协同过滤224 6.3.3 基于物品协同过滤227 6.3.4 实验实现协同过滤算法229 6.3.5 推荐算法库Surprise介绍与案例234 第7章239 特征工程、降维与超参数调优239 7.1 特征工程239 7.1.1 数据总体分析240 7.1.2 数据预处理241 7.1.3 数据预处理案例分析—美国高中生的社交数据案例分析253 7.2 降维与超参数调优257 7.2.1 降维方法257 7.2.2 实验实现降维257 7.2.3 超参数调优259 7.2.4 交叉验证案例分析261 第8章263 图像数据处理分析263 8.1 图像数据结构介绍264 8.1.1图像数据264 8.1.2 图像结构介绍265 8.2 图像数据分析方法266 8.3 图像数据分析案例271 8.3.1 PIL:Python图像处理类库应用示例271 8.3.2 Numpy图像数据分析示例277 8.3.3 Scipy图像数据分析示例279 8.3.4 scikit-image283 8.3.5 OpenCV288 8.3.6 综合练习——猫狗图片识别案例300 8.4 计算机视觉的应用302 8.4.1 图像分类(Image Classification)302 8.4.2 目标检测(Object Detection)303 8.4.3 图像分割(Object Segmentation)305 8.4.4 风格迁移(Style Transfer)307 8.4.5 图像重构(Image Reconstruction)308 8.4.6 超分辨率(Super-Resolution)309 8.4.7 图像生成(Image Synthesis)309 8.4.8 人脸图像的应用310 8.4.9 其他310 第 9 章321 文本数据处理分析321 9.1 文本数据处理的相关概念321 9.1.1 常用的文本数据处理技术321 9.1.2 中英文的文本数据处理方法对比322 9.2 文本数据处理关键技术应用325 9.2.1 文本分词技术325 9.2.2 文本向量化技术328 9.2.3 关键词提取331 9.3 文本数据处理分析案例332 9.3.1 Python的第三方模块NLTK332 9.3.2 Python的第三方模块jieba346 9.4 自然语言处理的应用353 9.4.1 NLP的应用场景及数据集353 9.4.2 LLM的发展与研究方向356 第 10章358 深度学习入门358 10.1 深度学习概述358 10.2 神经网络介绍359 10.2.1 单个神经元 & 逻辑回归(LR)359 10.2.2 人工神经网络概念360 10.2.3 多层神经网络简介360 10.2.4 BP神经网络简介361 10.3 卷积神经网络361 10.3.1 卷积神经网络简介361 10.3.2 卷积神经网络的整体结构362 10.3.3 常见卷积神经网络365 10.4 循环神经网络376 10.4.1 RNN基本原理376 10.4.2 长短期记忆网络379 10.4.3 门限循环单元385 10.5 深度学习流行框架386 10.6 建立一个卷积神经网络对图片分类388
|
|