2004年以来,知识图谱作为一个专门的研究领域,得到了越来越多研究者的关注。《机构知识图谱的构建及其应用》首先回顾了知识图谱的发展历程,并对知识图谱的内涵进行了辨析。其次,通过对大量知识图谱研究成果的梳理,研究了国内外知识图谱研究的现状;通过对Web of Science的引证关系图等知识图谱的应用情况的调研,分析了这些应用的不同功能和效用。第三,在比较知识图谱构建的一些方法、工具、数据源和流程,提出了一个基于QICP的机构知识图谱构建流程。第四,以引文数据库、学术搜索引擎和项目数据源为基础探讨了机构知识图谱的构建。最后一部分,探讨了机构知识图谱在科研创新团队遴选、机构合作和期刊发文主题演化等科研实践工作中的应用。
第1章
知识图谱概述
图画作为人类最早期的叙事方式,在人类文明出现以前,便跨越了语言、文字的障碍,成为史前文明时代最重要的交流方式。历史总是惊人地相似,几千年之后的今天,“读图时代”再次到来。2011年4月12日,百度首席执行官Chief Executive Officer,CEO李彦宏在百度联盟2011峰会上预言,中国互联网未来几年的主要发展机遇,将集中在“中间页”“读图时代”“应用为王”等三大领域。他还表示,全新的读图时代已经来临,主营图片内容的网站将获长足发展
截至2011年12月,中国学术期刊网络出版总库收录全文文献总量3 398 万余篇;其中超过63%的文献中有规范的图片,平均每篇文献有图片4张左右。中国优秀硕士学位论文全文数据库收录优秀硕士学位论文134万余篇,其中超过80%的优秀硕士论文中有图片,平均每篇论文中有图片40张左右。中国博士学位论文全文数据库收录博士学位论文17万余篇,其中超过80%的博士论文中有图片,平均每篇论文中有图片50张左右。这些数据从一个侧面反映出,学术图片在科学研究领域是研究人员表达和传播知识内容的一种重要方式。
中国知识基础设施China National Knowledge Infrastructure,CNKI学术图片知识库是我国第一个学术类图片的知识库产品。它采用同方知网自主研发的智能挖掘技术,从各类学术文献中提取出千万量级的图形、图像等内容,加以规范化编辑整理,提供相似图表的检索、对比和分析功能等知识发现功能,将大大提高学术文献知识传播和应用效果。它以CNKI中国知识资源总库文献中提取的图片为分类元数据,把所有的图片划分为五个大类——形态图、谱线图、曲线图、系统图、分析图,二级类目下又细分为254种类型。该学术图片知识库现有图片2 600万余张,预计2013年之后每年新增图片150万余张。
笔者利用CNKI学术图片知识库查询发现,图书情报与数字图书馆、互联网技术、计算机软件及应用、新闻与传媒的学术图片数量分别为56 129张、411 305张、2 708 384张和51 557张截至2014年10月27日。从数据可以发现,不同学科之间学术图片的数量有较大的差异。例如,计算机软件及应用专题的学术图片数量达到了百万级,互联网技术的学术图片数量是十万级,图书情报与数字图书馆、新闻与传媒是万级。这一方面与学术期刊的数量有关,期刊数量越多,论文中出现学术图片的几率越大;另一方面也体现了学术图片在表达知识方面的研究习惯。另外,从表1-1看,每个专题的学术图片数量是一个稳定上升但有一定波动的状态。2013年学术图片占总体数量的比例差别较大,可能与数据库中图片更新数据不及时有一定关系。
由于学术图片在表达和传播知识方面的优势,同时随着各种条件的成熟,知识图谱目前已经成为一个快速发展的跨学科研究领域。如果以2003年加利福尼亚的学术研究会作为这个领域研究开始的一个时间节点,它已经走过了11个年头。尽管学术界目前对知识图谱的概念还存在不同的认识,但已经形成了一个基本共识:知识图谱是通过不同类型的图形和图像来揭示知识单元之间的关系及知识发展的过程。
表1-1 2005~2013年四个专题学术图片数量所占比例单位:%
知识图谱的出现得益于很多方面的因素。第一,数据、信息和知识的数量在不断增加,为知识图谱的研究提供了丰富的“原材料”。第二,相关理论与技术的发展为研究人员加工“原材料”,使其以不同类型的图形、图像等图片形式呈现提供了可能。尤其是数据可视化、信息可视化和知识可视化理论和技术在近年来发展非常迅速,产生了许多可以让研究人员应用的各类可视化工具。第三,由于知识的急剧增加,研究者从现有知识当中查找自己所需要的知识的难度也相应增加,效率在下降,因此产生了从大量知识当中快速获取自己所需知识的需求。第四,传统互联网和移动互联网技术的不断发展,催生了许多个性化的应用,为用户需要的满足提供了不同的平台。第五,谷歌、百度、搜狗等搜索引擎企业和中国知网、万方数据等数据库服务发现了通过可视化技术提升信息服务水平的商机。
第一节知识图谱的发展历程
一、一次学术研讨会
在《科学知识图谱:方法与应用》一书的导言中,大连理工大学刘则渊教授描述了他在2004年4月10日读完题为“科学家拟绘制科学门类图”的消息之后的那个不眠之夜的感触刘则渊,陈悦,侯海燕,等.科学知识图谱:方法与应用.北京:人民出版社,2008:1-3。他特别提到了2003年5月9日和10日在加利福尼亚大学欧文分校的美国国家科学院贝克曼激光研究中心举办的主题为“知识图谱测绘”Mapping Knowledge Domains的大型学术研讨会。来自计算机、信息与认识科学、数学、地理学等领域的专家、学者,从不同角度介绍了有关知识图谱的研究成果,共发表20多篇学术论文。从Ron Wild提供的图片图1-1,我们可以看到美国科学情报研究所名誉所长加菲尔德E. Garfield等熟悉的面孔。
图1-1“知识图谱测绘”大型学术研讨会部分与会作者
该会议的专门网站http:vw.indiana.edusackler03介绍了会议的相关信息。用户可以从网站免费下载加菲尔德的主题演讲和四个专题——数据库、数据格式和获取Data Bases, Data Format & Access、数据分析算法Data Analysis Algorithms、可视化和交互设计Visualization & Interaction Design、应用前景Promising Applications的PPT表1-2和视频资料。美国科学院院刊PNAS在2004年第4期上以专题形式刊出了该次会议的20篇论文表1-3。美国印第安纳大学Indiana University的谢夫林R. M. Shiffrin和伯尔纳K. BornerShiffrin R M ,Borner K.Mapping knowledge domains.Proceedings of the National Academy of Sciences,2004,1014:5183-5185,介绍了知识图谱产生的背景及其现实意义,并简要对该次会议的部分成果进行了评价,最后提出了知识图谱面临的机遇和挑战。
陈悦和刘则渊陈悦,刘则渊.悄然兴起的科学知识图谱.科学学研究,2005,232:149-154在国内较早地介绍了这次学术会议的主要内容,并根据知识图谱研究的性质和特征,将“Mapping Knowledge Domains”译为“科学知识图谱绘制”。从此之后,国内研究人员开始陆续把“知识图谱”作为一个专业术语在研究成果中使用。
表1-2“知识图谱”学术研讨会部分研究成果列表
报告主题报告题目作者及其机构
从这次会议研讨的内容及其研究成果可以看出,知识图谱是一个涉及计算机科学、数学、图书情报学等学科知识的跨学科研究领域。它不仅引起了高校和科研机构研究人员的关注,同时也得到了谷歌、微软等企业的研究人员的青睐。这些会议的议题也大体勾画出了知识图谱的八个研究领域。
1知识图谱研究的目标是:揭示科学结构的演化规律,刻画科学领域的相关对象的影响力、重要性和科研资助;探索大数据规律等[goalse.g. science structure, vitality and changes over time; maps of impact, importance and fun