新書推薦:
《
人才基因(凝聚30年人才培育经验与智慧)
》
售價:HK$
103.4
《
深度学习详解
》
售價:HK$
114.8
《
李白传(20世纪文史学家李长之经典传记)
》
售價:HK$
45.8
《
津轻:日本无赖派文学代表太宰治自传性随笔集
》
售價:HK$
66.7
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
|
編輯推薦: |
本书首先系统地介绍了与类别不平衡学习相关的一些基础概念及理论,并进而在上述理论的基础上,讨论了一些主流的类别不平衡学习技术及对应算法,具体包括样本采样技术、代价敏感学习技术、决策输出补偿技术、集成学习技术、主动学习技术及一类分类技术等。此外,也探讨了类别不平衡分布的危害预评估技术。*后,对该领域未来的发展方向及应用前景作出了评述与展望。
|
內容簡介: |
类别不平衡学习是机器学习与数据挖掘领域的重要分支之一,其在很多应用领域中均发挥着重要作用。本书首先系统地介绍了与类别不平衡学习相关的一些基础概念及理论第1、2章,进而在上述理论的基础上,讨论了一些主流的类别不平衡学习技术及对应算法,具体包括样本采样技术第3章、代价敏感学习技术第4章、决策输出补偿技术第5章、集成学习技术第6章、主动学习技术第7章及一类分类技术第8章等。此外,也探讨了样本不平衡分布的危害预评估技术第9章。*后,对该领域未来的发展方向及应用前景做出了评述与展望第10章。 本书可作为高等院校与研究院所计算机、自动化及相关专业研究生的课外阅读书籍,也可供对机器学习及数据挖掘感兴趣的研究人员和工程技术人员阅读参考。
|
目錄:
|
第1章绪论
1.1引言
1.2基本概念
1.3常用技术
1.4应用领域
1.5本书主要内容及安排
1.6文献导读
参考文献
第2章基础理论
2.1类别不平衡分布对传统分类器性能的影响机理
2.1.1类别不平衡分布对朴素贝叶斯分类器的影响
2.1.2类别不平衡分布对支持向量机的影响
2.1.3类别不平衡分布对极限学习机的影响
2.2类别不平衡学习的影响因素
2.3类别不平衡学习的性能评价测度
2.4本章小结
2.5文献导读
参考文献
第3章样本采样技术
3.1样本采样技术的基本思想及发展历程
3.2随机采样技术
3.2.1随机降采样法
3.2.2随机过采样法
3.3人工采样技术
3.3.1SMOTE采样法
3.3.2BorderlineSMOTE采样法
3.3.3ADASYN采样法
3.3.4OSS采样法
3.3.5SBC采样法
3.4优化采样技术
3.5实验结果及讨论
3.5.1数据集描述及参数设置
3.5.2结果与讨论
3.6本章小结
3.7文献导读
参考文献
第4章代价敏感学习技术
4.1代价敏感学习的基本思想
4.2代价矩阵
4.3基于经验加权的代价敏感学习算法
4.3.1CSSVM算法
4.3.2WELM算法
4.4基于模糊加权的代价敏感学习算法
4.4.1FSVMCIL算法
4.4.2FWELM算法
4.5实验结果与讨论
4.5.1数据集与参数设置
4.5.2结果与讨论
4.6本章小结
4.7文献导读
参考文献
第5章决策输出补偿技术
5.1决策输出补偿技术的基本思想
5.2基于经验的决策输出补偿算法
5.3基于关键位置比对的决策输出补偿算法
5.4基于优化思想的决策输出补偿算法
5.5实验结果与讨论
5.5.1实验一
5.5.2实验二
5.6本章小结
5.7文献导读
参考文献
第6章集成学习技术
6.1集成学习的基本思想
6.2两种经典的集成学习范式
6.2.1Bagging集成学习范式
6.2.2Boosting集成学习范式
6.3基于样本采样技术的集成学习算法
6.3.1Assymetric Bagging及asBaggingFSS算法
6.3.2SMOTEBoost及RUSBoost算法
6.3.3EasyEnsemble及BalanceCascade算法
6.4基于代价敏感学习技术的集成学习算法
6.5基于决策输出补偿技术的集成学习算法
6.6实验结果与讨论
6.6.1实验一
6.6.2实验二
6.6.3实验三
6.7本章小结
6.8文献导读
参考文献
第7章主动学习技术
7.1主动学习的基本思想
7.2基于支持向量机的主动不平衡学习算法
7.3样本不平衡分布中的主动学习算法设计
7.4实验结果与讨论
7.4.1实验一
7.4.2实验二
7.5本章小结
7.6文献导读
参考文献
第8章一类分类技术
8.1一类分类的基本思想
8.2基于密度的一类分类器
8.2.1基于高斯模型的一类分类器
8.2.2基于高斯混合模型的一类分类器
8.2.3基于Parzen窗的一类分类器
8.2.4基于K近邻的一类分类器
8.3基于支持域的一类分类器
8.3.1一类支持向量机
8.3.2支持向量数据描述
8.4一类极限学习机
8.5实验结果与讨论
8.5.1数据集与参数设置
8.5.2结果与讨论
8.6本章小结
8.7文献导读
参考文献
第9章样本不平衡分布的危害预评估技术
9.1预评估的必要性说明
9.2基于样本几何可分测度的预评估算法
9.3基于留一交叉验证的预评估算法
9.4实验结果与讨论
9.4.1实验一
9.4.2实验二
9.5本章小结
9.6文献导读
参考文献
第10章未来研究展望
10.1现有的挑战
10.2未来的研究方向与发展前景
10.3文献导读
参考文献
|
內容試閱:
|
随着数据生成与收集技术的快速发展,如今每天在各行各业的服务器中都会新增海量的数据,这就迫使我们不得不大跨步地迈入大数据时代。在很多领域尤其是商业和科研领域的从业人员眼中,大数据犹如一座未开采的宝矿,内中裹有取之不尽的财富。而机器学习与数据挖掘技术就是那柄能开山凿路、攫取财富的利剑。近年来,在产业界与学术界的双重关注下,机器学习与数据挖掘技术得到了飞速的发展,且在不断面向新应用与新挑战时,衍生出众多的新分支。类别不平衡学习便是这众多分支之一,其在机器学习与数据挖掘领域备受瞩目,很多业内主流的会议与期刊都曾以此为题举办过专刊或研讨会,如AAAI00,ICML03,ACM SIGKDD Explorations Newsletter04以及PAKDD09等。在ICDM05会议上,类别不平衡问题更是被列为数据挖掘领域待解决的十大挑战性难题之一。所谓类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致传统的分类模型失效的问题。通常,将用于解决上述问题的算法称为类别不平衡学习算法。类别不平衡学习有着较为广阔的应用范围,如文本分类、网络入侵检测、信用卡欺诈检测、工业故障检测、软件缺陷检测、石油泄漏检测、医学诊断、药物筛选及生物信息学等。故对这一技术展开深入研究不但具有理论意义,而且还有着广泛的应用价值。本书主要对类别不平衡学习的基本概念、基础理论及主流技术与算法展开介绍。全书共10章,大体上可分为以下3个部分: 第1部分包括第1,2章,介绍类别不平衡的基本概念和基础理论; 第2部分包括第3~9章,主要介绍一些用于解决类别不平衡问题的基础技术与前沿算法; 第3部分为第10章,从笔者的视角对该技术未来的发展方向和应用前景做出了评述与展望。特别需要说明的是,由于此领域文献众多,初入此领域者难免会有该选读何种文献的困惑,故笔者已将一些重要及经典的文献列出,并加以说明,置于每章后面的文献导读部分。在此,向那些为本书出版工作提供帮助的人表达谢意。首先,感谢东南大学自动化学院的博士后合作导师孙长银教授,在东南大学做博士后的几年时间里,孙老师给了我充分的自由度,使我能安心于自己的研究课题,本书很多内容都是在这段时间研究完成的。此外,江苏科技大学的高尚教授、杨习贝副教授、王平心副教授、左欣副教授、邵长斌、郑尚、秦斌、徐丹、鞠恒荣、洪淑芳、袁玉龙、杨菊、李青雯、席晓燕,东南大学的杨万扣副教授、刘金花、姚乔兵,天津大学的穆朝絮老师以及美国爱荷华大学的倪军副教授等均在本书出版过程中给予了支持与帮助,在此一并表示感谢。其次,感谢国家自然科学基金No.61305058、江苏省自然科学基金No.BK20130471、国家博士后特别资助计划项目No.2015T80481、国家博士后基金No.2013M540404、江苏省博士后基金No.1401037B、江苏省教育厅高等学校自然科学研究项目No.12KJB520003及江苏科技大学深蓝学者计划培养基金对本课题研究工作及本书出版工作所提供的经费支持。笔者深知自己才疏学浅,对类别不平衡学习技术仅可做到管中窥豹,且鉴于时间与精力有限,成稿仓促,书中难免会有错误与疏漏之处,望读者不吝指出,笔者将不胜感激。笔者于江苏科技大学
第3章样本采样技术
3.1样本采样技术的基本思想及发展历程3.2随机采样技术3.3人工采样技术3.4优化采样技术3.5实验结果及讨论3.6本章小结3.7文献导读参考文献
3.1样本采样技术的基本思想及发展历程如前所述采样技术是一种数据层的处理方法,它通过修正数据集的方式来平衡训练样本的类分布,以达到修复分类结果的目的。严格来讲,采样可被视作一种数据预处理技术,其最为突出的优点即是与后期选用何种分类算法无关。实际上,因其简便性,采样也是在类别不平衡学习领域中应用最为广泛的一项技术,在面向实际应用问题时,人们首先会考虑采用此技术。根据采样时所针对样本类别的不同,样本采样技术可大致分为以下三类: ①降采样技术,该技术针对的是多数类样本,通过删除该类中部分样本的方式来达成训练集的类分布平衡; ②过采样技术,该技术针对的是少数类样本,通过为此类补充一定样本的方式来谋求训练集的平衡; ③混合采样技术,该技术针对的是每类样本,即通过结合过采样与降采样的方式来寻求训练集平衡,对于极端不平衡的数据而言,此类技术通常较为有效[1]。在样本采样技术中,还有一个较为重要的概念,那就是采样率sampling rate,SR。假设某二类不平衡样本集中共有N个训练样本,其中包括N 个少数类样本与N-个多数类样本,N=N N-。则对于过采样而言,其需生成的少数类样本为N SR个,而对于降采样而言,其需移除的多数类样本则为N-SRSR 1个。特别需要指明的是,SR的取值范围通常在0,IR-1]之间,当SR=IR-1时,可保证采样后的样本集达到完全平衡,即N =N-。接下来回顾一下样本采样技术的发展史。可以说,自20世纪90年代末起,样本采样技术一共经历了以下三个主要的发展阶段:第一阶段19972001年: 在该阶段,随机采样技术开始流行,人们尝试去初步探索了类别不平衡问题的本质,并观察到了样本采样技术的有效性。第二阶段20022008年: 在这一阶段,随机采样技术的缺点被发现并不断放大,取而代之的是人工采样技术。人工采样技术既可在一定程度上缓解随机降采样所带来的重要分类信息缺失问题,又可以避免随机过采样所导致的过适应问题。第三阶段2009年至今: 在这一阶段,一些更为复杂的样本采样算法被陆续提出,人们开始注意到优化算法及集成学习算法在克服传统采样算法弱点方面的优势,同时也注意到在采样时保持样本原始分布的重要性。下面,将分别从上述三个发展阶段,选出一些有代表性的样本采样算法,对其核心思想、算法流程及优缺点做详细说明与评述。3.2随机采样技术随机采样是最为简单也是应用最为广泛的一类采样技术,主要分为以下两个类别: 随机降采样random undersampling,RUS及随机过采样random oversampling,ROS。其中,前者通过随机移除一定数量的多数类样本来缓解类分布不均衡的影响,而后者则通过简单复制少数类样本的方式来达成不同类在训练样本规模上的平衡。下面将分别对上述两类算法的流程及特点进行简要介绍。3.2.1随机降采样法随机降采样法,即RUS算法的基本思想是随机地移除一定数量或比例的多数类样本,以达到训练样本集的平衡。RUS算法的基本流程如下。算法31: RUS算法输入: 训练集S={xi,yi,i=1,2,,N,yi{ ,-}}; 多数类样本数N-,少数类样本数N ,其中,N- N =N; 不平衡比率IR=N-N ; 采样率SR。输出: 降采样后的训练集S={xi,yi,i=1,2,,N-N-SRSR 1,yi{ ,-}}。算法步骤:1. 从训练集S中取出全部多数类与少数类样本,组成多数类训练样本集S-及少数类训练样本集S ;2. For i=1:N-SRSR 12.1 在1~N--i 1之间随机选择一个数字,于S-中找到对应的样本x;2.2 在多数类样本集中移除2.1步所选出的样本,S-=S--x;End3. 得到降采样后的训练集S=S-S 。从上述算法流程不难看出,经过RUS算法处理过的训练集在样本规模上大幅减小了,且由于样本移除的随机性,这一算法的时间复杂度是相对较低的。然而,也正是由于对多数类样本不加以区别地进行移除,可能会造成较多的分类信息损失,从而导致后期建模的分类器质量不高。一般而言,当IR值较低,即类别不平衡问题不是非常严重时,RUS算法的效果通常较好,而当IR值较高时,即对于极度不平衡的分类问题,RUS算法的性能则往往不可控,且有较大概率获得较差的分类结果。图31给出了一个简单的示例,训练集中的多数类与少数类样本分别为100∶50与100∶5,即IR值分别为2及20,且保持SR=IR-1时,分别两次调用RUS算法,所得到的训练样本分布情况。
图31不同IR值下两次随机调用RUS算法的训练样本分布
a1 IR=2的原始训练样本分布; a2 IR=2的第1次随机降采样样本分布; a3 IR=2的第2次随机降采样样本分布; b1 IR=20的原始训练样本分布; b2 IR=20的第1次随机降采样样本分布; b3 IR=20的第2次随机降采样样本分布
从图31不难看出,当IR值较低时,采用RUS算法降采样后仍能很好地保留原始的多数类样本分布信息,从而保证后期所训练的分类器能得到稳定的分类性能; 而当IR值较高时,由于少数类样本稀缺,导致每次调用RUS算法所得到的多数类样本均存在较大差异,原始分布信息几乎完全丢失,分类性能的稳定性也就无从谈起。实际上,在早期的一些应用中,人们已经开始注意到了类别不平衡分布对分类性能的负面影响,并开发了一种样本集的人工划分方法[3,4]见图32。该方法将整个样本集划分为一个平衡的训练集与一个不平衡的测试集,由于分类器是在训练集上学习得到,故能保证其分类结果的公正性。严格来讲,人工划分法也可被视为RUS法的一种扩展,即训练集是对原始样本集做随机降采样而得到,只不过,在该方法中,随机降采样并不仅仅针对多数类,同时也针对少数类。人工划分法尽管有效,但并不合理,因为它假设测试集在训练前便是存在的,而这与实际应用情况并不相符。
图32人工划分法示意图
|
|