新書推薦:
《
生活来来往往 别等来日方长 新版(伍佰:“讲好了这一辈子,再度重相逢。”别等,别遗憾!珍惜当下才是最好的解药)
》
售價:HK$
58.2
《
一个英国军事顾问眼中的二战
》
售價:HK$
277.8
《
就业、利息和货币通论(徐毓枬译本)(经济学名著译丛)
》
售價:HK$
67.2
《
瘦肝
》
售價:HK$
99.7
《
股票大作手回忆录
》
售價:HK$
55.8
《
秩序四千年:人类如何运用法律缔造文明(世界重归混乱,文明岌岌可危,法律与秩序是我们仅有的武器。穿越时间,鸟瞰全球,一部波澜壮阔的人类文明史)
》
售價:HK$
154.6
《
民法典1000问
》
售價:HK$
99.7
《
国术健身 易筋经
》
售價:HK$
33.4
|
編輯推薦: |
本书特色:
1. 本书在前三版的基础上,对数据挖掘的方法论和知识点进行了重新归纳,按照基础篇、提高篇和应用篇进行设计。
2. 本书内容相对全面,各章之间耦合度小,教师可根据学生类型、学时安排等进行选择性教学,读者也可进行选择性学习和查阅。
3. 本书作者们长期从事数据挖掘的研究和教学工作,熟知课程知识重点和难点,尽量保证本书的系统性、先进性和实用性。
|
內容簡介: |
本书是一本全面介绍数据挖掘基本原理、核心算法以及典型应用方法的专业书籍。第4版在前三版的基础上,对数据挖掘的方法论和知识点进行了重新归纳,按照基础篇、提高篇和应用篇进行设计。从方法论上说,数据挖掘是一个方法和原理逐步演变的过程。首先,最基础的数据挖掘方法主要有“关联规则”“分类”“聚类”,它们是数据挖掘的灵魂和基础,因此基础篇是了解和学习数据挖掘技术的入门知识。其次,随着数据挖掘技术研究和应用的深入,序列数据挖掘和深度神经网络得到充分研究。前者突破数据库的数据约束,面向时间序列发现有价值的知识模式; 后者突破浅层神经网络的性能瓶颈,为多模态数据的自主挖掘提供新的解决途径。因此,“序列模式”和“深度神经网络”构成提高篇。最后,以互联网数据挖掘、空间数据挖掘构成应用篇。全书分为3篇共9章,各章相对独立,以利于读者选择性学习。在每章后面都专设一节对本章内容和文献引用情况进行归纳,以利于读者了解本章内容的知识点和检索原始参考资料。 本书可作为计算机专业研究生或高年级本科生教材,也可作为从事计算机研究和开发人员的参考资料。作为教材,教师可以根据课时安排进行选择性教学。对于研究和开发人员,本书不仅是一本具有较高参考价值的专业书籍,而且也是学习典型算法及其原理的很好的教科书。
|
目錄:
|
基础篇
第1章绪论
1.1数据挖掘技术的产生与发展
1.1.1数据挖掘技术的商业需求分析
1.1.2数据挖掘产生的技术背景分析
1.1.3大数据时代的数据挖掘技术需求分析
1.2数据挖掘研究的发展趋势
1.3数据挖掘概念
1.3.1从商业角度看数据挖掘技术
1.3.2数据挖掘的技术含义
1.3.3数据挖掘研究的理论基础
1.4数据挖掘技术的分类问题
1.5数据挖掘常用的知识表示模式与方法
1.5.1广义知识挖掘
1.5.2关联知识挖掘
1.5.3类知识挖掘
1.5.4预测型知识挖掘
1.5.5特异型知识挖掘
1.6不同数据存储形式下的数据挖掘问题
1.6.1事务数据库中的数据挖掘
1.6.2关系型数据库中的数据挖掘
1.6.3数据仓库中的数据挖掘
1.6.4在关系模型基础上发展的新型数据库中的数据
挖掘
1.6.5面向应用的新型数据源中的数据挖掘
1.6.6Web数据源中的数据挖掘
1.7粗糙集方法及其在数据挖掘中的应用
1.7.1粗糙集的一些重要概念
1.7.2粗糙集应用举例
1.7.3粗糙集方法在KDD中的应用范围
1.8数据挖掘的应用分析
1.8.1数据挖掘与CRM
1.8.2数据挖掘与社会网络
1.8.3数据挖掘应用的成功案例分析
1.9本章小结和文献注释
习题1
第2章知识发现过程与应用结构
2.1知识发现的基本过程
2.1.1数据抽取与集成技术要点
2.1.2数据清洗与预处理技术要点
2.1.3数据的选择与整理技术要点
2.1.4数据挖掘技术要点
2.1.5模式评估技术要点
2.2数据库中的知识发现处理过程模型
2.2.1阶梯处理过程模型
2.2.2螺旋处理过程模型
2.2.3以用户为中心的处理模型
2.2.4联机KDD模型
2.2.5支持多数据源多知识模式的KDD处理模型
2.3知识发现软件或工具的发展
2.3.1独立的知识发现软件
2.3.2横向的知识发现工具集
2.3.3纵向的知识发现解决方案
2.3.4KDD系统介绍
2.4知识发现项目的过程化管理
2.5数据挖掘语言介绍
2.5.1数据挖掘语言的分类
2.5.2数据挖掘查询语言
2.5.3数据挖掘建模语言
2.5.4通用数据挖掘语言
2.5.5DMQL挖掘查询语言介绍
2.6本章小结和文献注释
习题2
第3章关联规则挖掘理论和算法
3.1基本概念与解决方法
3.2经典的频繁项目集生成算法分析
3.2.1项目集空间理论
3.2.2经典的发现频繁项目集算法
3.2.3关联规则生成算法
3.3Apriori算法的性能瓶颈问题
3.4Apriori的改进算法
3.4.1基于数据分割的方法
3.4.2基于散列的方法
3.4.3基于采样的方法
3.5项目集空间理论的发展
3.5.1Close算法
3.5.2FPtree算法
3.6项目集格空间和它的操作
3.7基于项目集操作的关联规则挖掘算法
3.7.1关联规则挖掘空间
3.7.2三个实用算子
3.7.3最大频繁项目集格的生成算法
3.7.4ISSDM算法执行示例
3.8改善关联规则挖掘质量问题
3.8.1用户主观层面
3.8.2系统客观层面
3.9约束数据挖掘问题
3.9.1约束在数据挖掘中的作用
3.9.2约束的类型
3.10时态约束关联规则挖掘
3.11关联规则挖掘中的一些更深入的问题
3.11.1多层次关联规则挖掘
3.11.2多维关联规则挖掘
3.11.3数量关联规则挖掘
3.12数量关联规则挖掘方法
3.12.1数量关联规则挖掘问题
3.12.2数量关联规则的分类
3.12.3数量关联规则挖掘的一般步骤
3.12.4数值属性离散化问题及算法
3.13本章小结和文献注释
习题3
第4章分类方法
4.1分类的基本概念与步骤
4.2基于距离的分类算法
4.3决策树分类方法
4.3.1决策树基本算法概述
4.3.2ID3算法
4.3.3C4.5算法
4.4贝叶斯分类
4.4.1贝叶斯定理
4.4.2朴素贝叶斯分类
4.4.3EM算法
4.5规则归纳
4.5.1AQ算法
4.5.2CN2算法
4.5.3FOIL算法
4.6与分类有关的其他问题
4.6.1分类数据预处理
4.6.2分类器性能的表示与评估
4.7本章小结和文献注释
习题4
第5章聚类方法
5.1概述
5.1.1聚类分析在数据挖掘中的应用
5.1.2聚类分析算法的概念与基本分类
5.1.3距离与相似性的度量
5.2划分聚类方法
5.2.1k平均算法
5.2.2PAM
5.2.3CLARANS算法
5.3层次聚类方法
5.3.1AGNES算法
5.3.2DIANA算法
5.3.3其他层次聚类方法
5.4密度聚类方法
5.5其他聚类方法
5.5.1STING算法
5.5.2SOM算法
5.5.3COBWEB算法
5.5.4模糊聚类算法FCM
5.6本章小结和文献注释
习题5
提高篇
第6章时间序列和序列模式挖掘
6.1时间序列及其应用
6.2传统的时间序列分析方法
6.3随机时间序列分析方法
6.3.1时间序列的平稳性
6.3.2平稳的随机时间序列分析模型
6.3.3非平稳的随机时间序列分析模型
6.3.4时间序列中相似性及其序列匹配方法
6.4基于离散傅里叶变换的时间序列相似性查找
6.4.1完全匹配
6.4.2子序列匹配
6.5基于规范变换的查找方法
6.5.1基本概念
6.5.2查找方法
6.6序列挖掘
6.6.1基本概念
6.6.2数据源的形式
6.6.3序列模式挖掘的一般步骤
6.7AprioriAll算法
6.8AprioriSome算法
6.9GSP算法
6.10本章小结和文献注释
习题6
第7章神经网络与深度学习
7.1线性网络
7.1.1线性回归模型
7.1.2随机梯度下降
7.1.3神经网络
7.1.4softmax回归
7.1.5线性回归模型实践
7.1.6softmax回归模型实践
7.2多层感知器
7.2.1隐含层
7.2.2激活函数
7.2.3前向传播与反向传播
7.2.4暂退法
7.2.5多层感知器模型实践
7.3卷积神经网络
7.3.1卷积
7.3.2池化
7.3.3经典卷积神经网络LeNet
7.3.4LeNet实践
7.4深度卷积神经网络
7.4.1现代卷积神经网络AlexNet
7.4.2AlexNet实践
7.4.3含并行连接的卷积神经网络GoogleNet
7.4.4GoogleNet实践
7.4.5残差网络ResNet
7.4.6ResNet18实践
7.5PyTorch简介
7.5.1PyTorch安装
7.5.2Jupyter Notebook中PyTorch的初步实践
7.5.3自动微分
7.5.4数据集读写及相关自定义函数
7.6本章小结和文献注释
习题7
应用篇
第8章Web挖掘技术
8.1Web挖掘的意义
8.2Web挖掘的分类
8.3Web挖掘的含义
8.3.1Web挖掘与信息检索
8.3.2Web挖掘与信息抽取
8.4Web挖掘的数据来源
8.4.1服务器日志数据
8.4.2在线市场数据
8.4.3Web页面
8.4.4Web页面之间的超链接关系
8.4.5其他信息
8.5Web内容挖掘方法
8.5.1爬虫与Web内容挖掘
8.5.2虚拟的Web视图
8.5.3个性化与Web内容挖掘
8.5.4对Web页面内文本信息的挖掘
8.5.5对Web页面内多媒体信息挖掘
8.5.6Web页面内容的预处理
8.6Web访问信息挖掘方法
8.6.1Web访问信息挖掘的特点
8.6.2Web访问信息挖掘的意义
8.6.3Web访问信息挖掘的数据源
8.6.4Web访问信息挖掘的一般过程
8.6.5Web访问信息挖掘的数据清理
8.6.6用户识别方法
8.6.7会话识别方法
8.6.8其他预处理技术
8.6.9Web访问挖掘的应用方法
8.6.10Web访问信息挖掘的要素构成
8.6.11Web访问信息挖掘应用
8.7Web结构挖掘方法
8.7.1页面等级(分级)的评价方法
8.7.2PageRank算法
8.7.3权威页面和中心页面
8.7.4Web站点结构的预处理
8.8本章小结和文献注释
习题8
第9章空间挖掘
9.1空间挖掘的意义
9.2空间数据概要
9.2.1空间数据的复杂性特征
9.2.2空间数据的查询问题
9.3空间数据组织
9.3.1最小包围矩形
9.3.2空间索引技术
9.3.3专题地图
9.4空间数据挖掘基础
9.4.1空间数据的基本操作
9.4.2空间实体间的距离度量
9.4.3空间数据挖掘的基本方法
9.5空间关联规则及其挖掘方法
9.5.1空间关联规则概述
9.5.2空间关联规则挖掘方法
9.6空间分类算法
9.6.1ID3在空间的扩展
9.6.2空间决策树的构建方法
9.7空间聚类算法
9.7.1空间近似聚类的CRH方法
9.7.2基于随机搜索的CLARANS扩展聚类方法
9.7.3大型空间数据库基于距离分布的聚类算法DBCLASD
9.7.4其他的空间聚类方法
9.8空间统计挖掘
9.9空间的概念泛化与特化
9.9.1逐步求精
9.9.2泛化
9.9.3统计学信息网格方法
9.10空间挖掘的其他问题
9.11空间数据挖掘原型系统介绍
9.12空间数据挖掘的研究现状
9.13空间数据挖掘的研究与发展方向
9.14空间数据挖掘与相关学科的关系
9.14.1空间数据挖掘与空间数据库
9.14.2空间数据挖掘与空间数据仓库
9.14.3空间数据挖掘与空间联机分析处理
9.14.4空间数据挖掘与地理信息系统
9.15数字地球
9.16本章小结和文献注释
习题9
参考文献
|
內容試閱:
|
《数据挖掘原理与算法》历经26年,经过第1版到第3版,现在到第4版,其内容也随着数据挖掘技术的发展逐步增减,力求做到经典而不失先进、丰富而不失易学。据不完全统计,前三版已经被国内近百所高校作为专业教材、参考书和馆藏。特别感谢多年来专业教师、学生及计算机从业者对本书的青睐和及时反馈,你们是本书不断完善的直接推动者。第4版除了对必要的表述和文字进行修正外,重点从数据挖掘方法论的角度对全书内容进行了增减和编排,使之更符合该研究领域及技术的发展规律。特别地,第4版按照数据挖掘的基础算法、提高算法以及典型应用方法分成基础篇、提高篇和应用篇,更利于读者使用及选择性学习。
数据挖掘是20世纪90年代得到飞速发展的技术。包括麻省理工学院的《科技评论》等国际权威发布,“数据挖掘”被认为是对人类产生重大影响的重要技术之一。从技术影响力来说,数据挖掘已经成为博士、硕士学位论文相关度最高的技术之一,也是支撑新一代IT公司最基础的技术之一。从应用范围来说,数据挖掘几乎涉猎现代工业、农业、商业、国防、文化体育等行业,是新一轮科技革命、产业数字化所依附的重要技术之一。
自20世纪80年代开始,随着数据库、因特网等数据的膨胀,传统的数据库检索、网络搜索引擎等技术已经无法满足人们利用海量数据的需求。突出的问题不再是没有数据,而是没有时间和能力去消化这些看起来遮天蔽日、杂乱无章的浩瀚数据。面对这一挑战,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。20世纪90年代,随着数据库技术、统计学以及知识工程等研究和应用的延伸,数据挖掘技术逐步从这些领域交叉衍生出来,其中,“关联规则”“分类”“聚类”3种方法脱颖而出,对应的算法被提出,构成了数据挖掘中最经典和最核心的技术方法。
历经30余年的发展,数据挖掘技术已经积累了一批有价值的理论及算法成果。随着大数据时代的到来,数据挖掘技术也在不断发展。第一,大数据有批式和流式两种处理方法,传统的数据挖掘主要是面向数据库中的知识发现,侧重于批式大数据。流式大数据希望从随时间变化的数据序列中发现有价值的知识模式,因此时间序列挖掘成为流式大数据挖掘的骨干支撑技术之一。此外,大数据的结构多样性特点,使得图像、声音、视频等多媒体数据成为数据挖掘中不可或缺的数据来源,而深度学习的提出和发展为多模态数据挖掘提供了可行的解决途径。因此,本书第4版设置“提高篇”,集中讲述时间序列数据挖掘和深度神经网络学习原理与算法。
诚然,要真正理解数据挖掘技术并不是一件容易的事。一方面,数据挖掘技术覆盖范围很广泛,需要从理论到应用、从概念到算法的完整过程; 另一方面,数据挖掘所涉及的应用领域极其宽泛。在许多学科的应用研究中大量出现,难免有概念不专业之使用,需要读者甄别和理解。同时,大大小小的公司都在尝试使用数据挖掘的技术,也有浮夸肤浅之倾向。因此,本书第4版将以数据挖掘在网络数据、空间数据上的应用为例,讲述数据挖掘技术的应用模式及其方法。
本书作者长期从事数据挖掘的研究和教学工作,熟知相关课程的知识重点和难点,尽量保证了本书内容的系统性、先进性和实用性。本书可作为计算机专业研究生教材、高年级本科生的选修教材,也可作为从事计算机研究和开发人员的参考资料。为了保证内容的先进性和深度,对重点内容进行了重点阐述。本书内容相对全面,各章之间耦合度小。作为教材,教师可以根据学生类型、学时安排等进行选择性教学。作为参考书,读者可以根据自己的基础进行选择性学习或查阅。在每章后面都专设一节对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且对读者,特别是研究人员,也起到文献的注释性索引功能。本书的所有典型算法都通过具体跟踪执行实例来进一步说明,这对读者正确理解和应用算法是有益的。对工程技术人员来说,这些算法完全可以在理解的基础上进行改进或改造应用到实际工作中。
全书分为三篇,相对独立,读者可以根据自己的需要进行选择性教学和学习。第一篇是基础篇,主要讲述数据挖掘概念、过程及其关联规则、分类、聚类等挖掘方法。第一篇设置了5章,其中,第1章是绪论,系统地介绍了数据挖掘的概念、产生背景以及应用价值; 第2章给出了知识发现的过程分析和应用结构设计,并对数据挖掘应用系统的主要功能部件和关键步骤进行了较为详尽的剖析; 第3章全面阐述了关联规则挖掘的理论和算法,并对一些新的焦点问题(如多维、数量、约束关联规则挖掘)的最新成果尽可能地加以介绍; 第4章给出分类的主要理论和算法描述; 第5章讨论聚类的常用技术和算法。第二篇是提高篇,主要讲述时间序列数据挖掘和深度神经网络挖掘原理与算法。第二篇设置了2章,其中,第6章对时间序列分析技术和序列挖掘算法进行论述; 第7章简述神经网络及其深度学习原理与技术。第三篇是应用篇,主要讲述数据挖掘在网络数据、空间数据中的应用方法。第三篇设置了2章,其中,第8章对Web挖掘的应用方法及其原理进行介绍; 第9章简述空间数据挖掘的基本原理与技术。
许多同行专家、教师和计算机从业者为本书的改版提出了宝贵的意见,包括许多来自一线的教学与研发的经验,在此一并表示感谢。特别感谢北京工业大学刘椿年教授以及中国科学院高文和孙玉方研究员,作为作者的导师,他们在作者攻读博士学位期间对本书素材的积累提供了极大的帮助。本书也凝聚了北京工业大学、中央财经大学、福建工程学院一些研究生的心血,他们在本书算法实例整理和验证等方面做了很多工作,在此就不一一列举了。
作者2023年4月于北京、福州
|
|