新書推薦:
《
形似神异:什么是中日传统政治文化的结构性差异
》
售價:HK$
55.8
《
养育不好惹的小孩
》
售價:HK$
77.3
《
加加美高浩的手部绘画技法 II
》
售價:HK$
89.4
《
卡特里娜(“同一颗星球”丛书)
》
售價:HK$
87.4
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:HK$
188.2
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:HK$
132.2
《
《日本文学史序说》讲演录
》
售價:HK$
72.8
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:HK$
99.7
|
編輯推薦: |
本书系统介绍了相似点集挖掘、数据集的基本内容和组织形式,设计安排了7类相似点集挖掘实验数据集,基本涵盖了相似点集挖掘的典型算法类型验证工作所需的数据集,普适性强,可以用于国内300所大学数据科学与大数据技术专业大数据算法课程的相似点集挖掘算法实验,用于工业界相似点集数据挖掘算法设计和应用实验。
|
內容簡介: |
近年来,许多大学纷纷开设了数据科学与大数据技术专业,数据企业也高度重视数据科学家的培养训练。培养数据科学家需要师资条件、数据条件、计算条件等三个基础条件。本书关注数据条件的建设。
本书共分九章。第1章介绍了相似点集挖掘的基本原理和基本类型,包括聚类分析、特异群组分析和异常分析等;第2章是数据集产品的内容说明和使用手册;第3章至第6章分别介绍了四种球状多簇数据集、双月数据集、海量噪声数据集、三叶结数据集等四个抽象的数据集及其使用方法;第7章至第9章分别介绍了证券投资交互数据集、日志序列数据集、社交网络数据集等三个有实际应用背景的模拟数据集及其使用方法。
本书的读者对象主要是数据科学与大数据技术相关专业的老师和学生、企事业单位大数据相关部门的员工,本书介绍的数据集产品主要用于相似点集挖掘算法的设计实验、算法实验和算法效果评估。
|
關於作者: |
朱扬勇,复旦大学教授,上海市数据科学重点实验室主任,农业大数据产业技术战略联盟副理事长兼首席科学家,大数据协同安全国家工程实验室副理事长,中国自动化学会国防大数据分会副主任,《大数据》期刊编委会副主任。研究领域为数据科学,发表学术论文200多篇,《数据学》《旖旎数据》《特异群组挖掘》《数据自治》《大数据资源》作者,《大数据技术与应用丛书》(22册)主编。
|
目錄:
|
第1章相似点集挖掘 001
1.1 概述 001
1.2 聚类分析 004
1.3 异常分析 006
1.4 特异群组分析 008
第2章数据集说明 011
2.1 数据产品的规范要求 011
2.1.1 数据集 011
2.1.2 数据产品说明 013
2.2 数据产品完整性 015
2.3 数据产品可用性 018
2.4 七种数据集概览 019
2.4.1 关于数据规模 019
2.4.2 抽象相似点集 021
2.4.3 实际数据集模拟 024
2.5 数据产品使用说明 026
2.5.1 单机环境加载数据集 027
2.5.2 集群环境加载数据集 029
第3章 球状多簇数据集 037
3.1 概述 037
3.2 数据规模 040
3.3 字段说明 041
3.4 数据获取 041
3.4.1 单机环境加载数据集 041
3.4.2 集群环境加载数据集 043
3.5 数据样例 045
3.6 代码和结果示例 046
第4章 双月数据集 048
4.1 概述 048
4.2 数据规模 051
4.3 字段说明 051
4.4 数据获取 052
4.4.1 单机环境加载数据集 052
4.4.2 集群环境加载数据集 054
4.5 数据样例 056
4.6 代码和结果示例 057
第5章 海量噪声数据集 059
5.1 概述 059
5.2 数据规模 062
5.3 字段说明 063
5.4 数据获取 063
5.4.1 单机环境加载数据集 063
5.4.2 集群环境加载数据集 065
5.5 数据样例 067
5.6 代码和结果示例 068
第6章 三叶结数据集 070
6.1 概述 070
6.2 数据规模 073
6.3 字段说明 073
6.4 数据获取 074
6.4.1 单机环境加载数据集 074
6.4.2 集群环境加载数据集 076
6.5 数据样例 078
6.6 代码和结果示例 080
第7章 证券投资交互数据集 082
7.1 概述 082
7.2 数据规模 086
7.3 字段说明 087
7.4 数据获取 087
7.4.1 单机环境加载数据集 087
7.4.2 集群环境加载数据集 090
7.5 数据样例 091
7.6 代码和结果示例 094
第8章 日志序列数据集 096
8.1 概述 096
8.2 数据规模 099
8.3 字段说明 100
8.4 数据获取 101
8.4.1 单机环境加载数据集 101
8.4.2 集群环境加载数据集 103
8.5 数据样例 105
8.6 代码和结果示例 105
第9章 社交网络数据集 111
9.1 概述 111
9.2 数据规模 114
9.3 字段说明 115
9.4 数据获取 116
9.4.1 单机环境加载数据集 116
9.4.2 集群环境加载数据集 119
9.5 数据样例 121
9.6 代码和结果示例 125
后记 127
|
內容試閱:
|
数据挖掘分析不是一项工程性工作,而是一项科学性工作,所以把从事数据挖掘分析的人称为数据科学家而不是数据工程师。数据科学家被认为是 21世纪性感的职业,因为数据挖掘分析的效果取决于数据科学家的能力,并且数据科学家数量少且神秘。
近年来,许多大学纷纷开设了数据科学与大数据技术专业,数据企业也高度重视数据科学家的培养训练。培养数据科学家需要师资条件、数据条件、计算条件三个基础条件,本书主要关注数据条件的建设。数据条件是指拥有多种多样的数据集,并且数据规模要足够大,数据集还能够反映较多的实际数据场景的情况。数据条件建设是数据科学家培养体系建设的核心内容。针对给定数据集设计数据挖掘算法、训练算法设计和算法优化能力、提升发现问题和解决问题的能力,是数据科学家培养的重要环节。
针对相似点集挖掘算法实训,本书设计了球状多簇数据集、双月数据集、海量噪声数据集、三叶结数据集四个抽象的数据集,并设计了证券投资交互数据集、日志序列数据集、社交网络数据集三个有实际应用背景的模拟数据集。每个数据集又分为小、中、大三种规模,用于不同数据规模的相似点集挖掘算法设计和实验。其中,小规模数据集用于内存算法的设计实验;中规模的数据集用于需要内外存数据交换的单服务器算法的设计实验;大规模数据集则用于服务器集群算法的设计实验。相似点集挖掘实验数据集产品覆盖了主要相似点集挖掘算法类型的算法实验需要。
本书共分九章。第1章介绍了相似点集挖掘的基本原理和基本类型,包括聚类分析、特异群组分析和异常分析等;第 2章是数据集产品的内容说明和使用手册;第 3章至第 6章分别介绍了球状多簇数据集、双月数据集、海量噪声数据集、三叶结数据集四个抽象的数据集及其使用方法;第7章至第9章分别介绍了证券投资交互数据集、日志序列数据集、社交网络数据集三个有实际应用背景的模拟数据集及其使用方法。
为满足数据科学和大数据技术人才培养对数据条件的需求,本书尝试将设计的七种相似点集挖掘实验数据集规范成数据产品进行出版发行。本书所述数据集产品是作者原创,不涉及个人信息、企业秘密和国家数据安全。参加本实验数据产品设计的还有熊赟教授、叶雅珍博士、张尧博士、任洪润博士研究生、高云帆硕士研究生、吴祺亮硕士研究生。
由于作者水平有限,本书谬误之处恳请读者批评指正,不胜感谢。
朱扬勇
|
|