1.2 研究的主要内容和方法
1.2.1 研究的主要内容
专利信息同时具有外部特征项和内部特征项,所以需要能进行定量分析的外部指标,又需要能进行定性分析的文本内容,因此,本论文以数据挖掘相关技术分别对内外特征项进行分析作为讨论的主要内容。
本论文的研究内容主要包括几下几个方面:
(1)数据挖掘的概述:数据挖掘的概念、技术、任务、及其过程;关联规
概念及其定义;聚类分析的概念和典型方法;文本挖掘的概念和过程。
(2)专利信息与专利信息分析之中的基本概念和相关理论。
(3)基于摩托车行业在中国申请的专利进行定量分析外部指标以及定性分析内部指标:摩托车行业概述、申请年限分析、申请地区分析技术主题分析等。
(4)基于雅马哈公司在华申请专利的文本聚类分析研究:文本聚类的概念、一般过程、算法,主要包括专利信息分析的方法体系研究,并在其中选取了专利文本信息的预处理过程、文本分词和文本特征选择等内容进行重点研究。同时,还对雅马哈公司的专利信息进行了层次聚类分析研究。
(5)基于雅马哈公司在华申请专利的关联分析研究:针对雅马哈公司申请专利的关键技术的进行关联分析研究。
1.2.2 研究的主要方法
本学位论文主要包括以下几种研究方法:
(1)文献调研与归纳法
广泛查阅、搜集、鉴别、整理文献资料,了解和调查数据挖掘技术的理论知识、技术实现以及目前它在专利信息分析领域的发展现状,弄清数据挖掘的相关理论性概念知识,算法和技术。
(2)比较与综合分析法
比较国内外的专利信息,对其进行研究。对专利信息进行统计综合,将专利信息的费方面内容进行比较,同时将传统的专利分析方法和数据挖掘内容结合起来,进行综合性的更为深入的研究分析,来希望找到更完善的专利分析方法[2]。
(3)理论与实践结合分析法
本文主要包括专利信息的分析以及数据挖掘技术这两方面的内容。目前,这两个研究内容自身的理论知识和技术方法都还不太完善,处于大力发展阶段,虽然各自的研究都已小有成果,但是两者的结合还处于比较初期的阶段,还有很多的发展空间。在本文中,结合两轮机动摩托车行业的专利信息做一个案例分析。因此,本文是理论和实证的结合。
2 数据挖掘和专利信息分析概述
2.1 数据挖掘概述
(1)数据挖掘技术
数据挖掘是指将收集到的大量的数据进行仔细的分析,从而得到新的关系、趋势和模式。所谓数据挖掘( Data Mining- DM) ,是指从数据库的浩如烟海的大量随机的数据中发现并提取隐藏的,预先不可知的,但是用户有兴趣的并对用户有意义的潜在的信息的过程[5]。将数据挖掘技术应用在实际中,一般情况都会遵循“ 跨行业数据挖掘标准流程”,如图2-1所示。
跨行业数据挖掘标准流程
(2)数据挖掘的任务
数据挖掘的两个最终目标,其一是预测,其二是描述。预测是指通过现在已知的变量或者数据库的字段来预测其他的相关的变量或字段的值。而描述是指 找到将数据表述出来的一种可以理解的模式。按照功能分类,数据挖掘的任务就可以分为预测性挖掘和描述性挖掘。而按照知识的不同分类,数据挖掘的任务可以分为如下几类:
① 特征规则
从与研究相关的原始数据中寻找这些数据的共同点,即所谓的特征式,从个体到总体,这些共同点就表现出这些原始数据的总体特征。