面向新闻同步的网站内容自动提取与分类研究(4)

菜单

第4步信息特征匹配，即提取信息库中的源信息的特征向量，并与目标样本的特征向量进行匹配，通过匹配，将符合阈值条件也就是满足用户需求的信息返回给用户。

2.1.3关键技术

（1）提取目标样本的特征

网络信息挖掘系统采用的是向量空间模型，用特征词条和他的权值代表目标信息。在进行信息的匹配时，使用已知的特征项判断未知文本与目标样本的相关程度。特征词条和他的权值的选取称为目标样本的特征提取，特征提取算法的好坏将直接关系到系统的运行效果。词条在不同内容的文档中所呈现出的频率分布是不相同的，由此可以根据词条的频率特征进行权重评价和特征提取。

一个满足要求的特点项集应该既能体现目标内容，也能将目标同其它文档分别，因此词条权重正比于词条的文档内频数，反比于训练文本内出现该词条的文档频数。

与普通的文本文件比较，HTML文档中有明显的标识符，结构信息更加的明显，对象的属性比较丰富。系统在计算特征词条的权值时，充分考虑到HTML文档的特点，对于标题和特征信息较多的文本赋予比较高的权重。为了能够提高运行效率，系统对特征向量进行降维处理，仅保留权值较高的词条来作为文档的特征项，由此形成维数较低的目标特征向量。

（2）中文分词处理

这里的信息大多是文本信息。为了能够准确获得文本的主要信息，更好地建立特征模型，就要建立主词库、蕴含词库、同义词库等词库，并由此作为提取主题。一个好的专业词典将会极大的提高主题提取的精确性和准确性。网络信息挖掘的关键技术之一就是中文词的切分技术。《中国分类主题词表》由于其学科体系的规范性和完整性，毫无疑问是很适合作词库的。对于专业要求比较高的数据挖掘和在实际应用中出现的不满足要求的地方，可在该词表的基础上进行相应的修改和扩充，在这里引入了图书馆学中的后控思想，即通过对词表的规范来控制网络地址标引的准确性。在目前来说这种方法的效用无疑是最好的。论文网

（3）网络动态信息获取

Robot是传统搜索引擎的重要组成之一，它依据HTTP协议读取网络页面并根据HTML文档中的超链在万维网上进行自动探索，Robot也被称为Spider、Worm或Crawler。但Robot的缺陷在于它只能获取网络静态页面，而有价值的信息通常存放在网络数据库中，人们无法通过搜索引擎获得这些数据，只能登录相关专业信息网站，利用网站提供的查询直接接口提交查询请求，浏览并获取系统生成的动态页面。网络信息挖掘系统则通过网站提供的查询接口对网络数据库中的信息进行遍历，并根据专业知识库对遍历的结果进行自动的整理分析，最后导入到本地的信息库。