基于数据挖掘技术的专利信息分析及应用研究(5)

菜单

文本挖掘的一般处理过程

③ 文本挖掘

文本挖掘(Text Mining，TM)．文本挖掘又叫文本数据挖掘(Text Data Mining，TDM)，也可以称为文本知识发现(Knowledge Discovery in Texts，KDT)，是指为了发现知识，从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程．它是个分析文本数据，抽取文本信息，进而发现文本知识的过程。如上图2-3给出了文本挖掘的一般处理过程。

2.2 专利信息与专利信息分析

（1）专利信息相关概念

在进行专利信息分析之前，需要对专利及专利信息中涉及的相关概念有一定了解。

① 专利（patent）

专利是指在一定的时间之内，创造的发明人所获得的一个国家赋予的对此创造发明的独占实施权利，这些权利概括说来具体包括专利产品的生产、使用和销售[3]。

② 专利类型

专利的种类在不同的国家有不同规定，在我国专利法中根据专利的保护对象及其特性进行分类，可以分为发明专利、集成电路布图设计、实用新型专利和外观设计专利等几种[8]。

③ 专利特点

专利属于知识产权的一部分，是一种无形的财产，具有排他性、区域性、和时间性等与其他文献不同的特点。

④ 专利文献

专利文献是一种文件总称，它包括已申请或者已被确认为与发明、发现、工业品外观设计和实用新型的研究、试验成果、开发和设计有关的资料，还有与保护专利所有人、发明人以及实用新型注册证书和工业品外观设计持有人权利的相关的已出版或未出版的文件（或其摘要）[9]。

⑤ 专利说明书

专利说明书是专利申请过程中核心的文件。它的作用主要包括，一、完整并清楚地向社会公开新生的创造发明，二、请求或确定了法律保护的范围。专利说明书是一种专利文件，它含有权利要求书、正文、扉页、说明书等组成部分，用来描述创造发明的内容，并且限定了专利保护范围，是一种官方文件或其出版物[10]。文献综述

⑥ 国际专利分类号（International Patent Classification，IPC）

国际专利分类号，它是国际统一的，标准的用于专利文献管理的系统、完善、科学的专利分类体系。由英文首字母简称为IPC或者是Int CI。有了这样一种统一的专利分类法，为使用者在编排、传递以及查找专利说明书都提供了很大的便捷。采用等级的形式，将技术内容注明：部——分部——大类——小类——大组——小组，以此逐级进行分类，来形成一个完整的分类体系。而对发明专利来说，IPC 把其中涉及的技术领域划分为八个大部，分别是A、B、C、D、E、F、G、H，这八个大部也就是八个分册。每一个大部（分册）都代表着一个典型的技术分类[2]。

（2）专利信息分析

专利是人类智慧的结晶，它几乎囊括了当今社会所有应用技术领域的研究成果，是集技术、法律、经济情报为一体的重要信息源。经济性、法律性和技术性是专利信息的三个特点。作为科技活动的一种记录，专利信息记下了我们人类所获得的所有的技术进步，它通过不断地积累，积聚成了我们创造发明的智慧宝库。

专利信息分析，又可称作专利分析，是指从所有的专利信息的资源中搜索收集相关的专利信息，再选择特定的合适的分析方法和手段，对所有的专利信息与其评价指标之间的相互关联性进行研究，从而得出专利信息中含有的价值，最终形成专利竞争情报，以供企业或者政府的科技创新发展战略的决策参考。

专利信息分析是深度信息咨询工作的一种。伴随全球范围内技术竞争的日趋激烈，所有国家的企业都愈来愈看重专利的战略研究，它的核心恰好为专利信息分析。运用专利公报、专利说明书里面的众多零碎的信息来分析、加工、组合，接着使用统计学的方法与技巧让这些信息转变成具有纵观全局且具有预测功能的竞争情报，从而给企业的战略决策予以信息支持，并且帮助发现行业中的核心竞争技术及其发展的现状，最终达到能够预测行业的发展方向并把握市场脉搏的目的[7]。