图9 2013-2016年关键词知识图谱(按时间序列) 12
图10 相关机构研究知识图谱 13
图11 相关作者知识图谱 15
表1 数据挖掘主题研究核心期刊文献的年度分布与积累历史性变化 6
表2 知识图谱中显示出的高频关键词 7
表3 高频关键词在2003-2012年与整体数据出现频次比较 11
表4 不同阶段知识图谱中显示出的高频关键词比较 13
表5 高产机构 14
表6 高产作者 15
基于CNKI的数据挖掘主题核心文献的可视化分析
一、引言
(一)研究背景
互联网技术的出现和发展带给了人们太多的便利,在网上互换信息和合作变得越来越容易,计算机不断地提高对各种类数据和信息的收集存储和处理能力,数据库技术的成熟和普及带来的结果是所积累的信息量以指数方式暴涨[1]。各行各业都积累了海量异构的数据资料。这些数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,为了达到决策服务的目的,将这些数据转化成有用的信息和知识迫在眉睫。作为一个新兴的多学科交叉应用领域,数据挖掘正在各行各业的决策支持活动中扮演着越来越重要的角色。随着信息技术的迅速发展,只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。
作为近年来新兴起的学科,数据挖掘在学术界赢得了极高的关注度,在产业界赢得了赞誉[2]。数据挖掘典型的应用领域包括医学、教学研究、工业生产等[3] 。例如中医药学研究中基于数据挖掘技术对中医经验传承的研究总结[4],以对常用研究方法的优势和不足进行剖析;教学评估中可通过数据挖掘技术对学生评教的有效性进行分析[5],以学生评教的视角对教师专业化发展提出建议;高端制造业利用数据挖掘对其海量的数据进行有效的分析并转换成有价值的生产知识[6],从而能够在实际应用中改进产品品质,提升产品性能和生产效率,最终达到提高企业行业竞争力的目的。
(二)可视化工具简介
知识图谱以科学知识为对象,是学科的发展进程与结构关系的一种直观图形展示方式,具有“图”和“谱”的双重性质与特征。可视化软件作为绘制知识图谱的载体工具,赋予了知识图谱直观、定量、简单与客观等诸多优点;经大量实践研究证明,通过生成知识图谱的方法可以得到较为可靠的研究结论,是一种有效的、综合性的知识可视化分析方法和工具,因此被广泛应用于学科发展进程的科学研究;目前成为科学计量学、科学学、管理学等领域的研究热点与实践探索趋势所必不可少的工具。Cite Space、Histcite[7]、VOS viewer[8]、SATI[9]、Bib Excel[10]等软件都具有可视化的功能。
其中Cite Space是一款在科学文献中识别与可视化新趋势与新动态的,在Java环境下运行的可视化的文献计量分析工具,目前已成为信息分析领域中影响力较大的信息可视化软件[11]。Cite Space系列软件的主要开发者是者美国德雷克塞尔大学信息科学与技术学院的华人学者陈超美(Chaomei Chen) 博士。通过Cite Space软件运行出的知识图谱网络,一个研究领域来龙去脉的历史演进历程被集中的展现在一幅引文网络图谱上,并且作为知识基础的引文节点文献和共引聚类所表征的研究前沿都被自动标识了出来。大连理工大学WISE 实验室的刘则渊[12]教授曾用“四个一”对Cite Space 软件系统进行了概括,“一图展春秋,一览无余;一图胜万言,一目了然”。 基于CNKI的数据挖掘主题核心文献的可视化分析(2):http://www.751com.cn/jisuanji/lunwen_26527.html