(3)基于新闻要素的应用研究
学术界目前基于新闻要素主要进行了以下研究。
1)事件相关多文档摘要。多文档自动文摘研究的目的是为用户提供简洁全面的文档信息并提高用户的信息获取绩效。吴玲达,雷震等[13]提出了一种针对新闻事件的多文档摘要生成方法,在对新闻要素进行提取和扩展的基础上,此方法可以尽量全面地覆盖话题,同时也能缩减自身的冗余。此外,安迪[14]设计了一个基于名实体的自动综述系统,该系统首先从新闻文献集中把时间、地点、人物等名实体提取与频率统计,然后根据这些名实体的频率与长度等因素将其综合权值计算出来,得到选出初次的摘要句集,最后通过一定方法排除重义句从而得到新闻综述。
2)网页去重。王鹏,张永奎,张彦与刘睿[15]提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法将新闻中的时间、人名等要素抽取出来,再根据这些抽取结果对新闻内容进行筛检挑选,最后根据相似度计算获得新闻网页的重复度。
3)新闻话题线索抽取。钱哲怡和李芳在《基于关键词和命名实体识别的新闻话题线索抽取》[16]一文中提出了将新闻话题进行线索化的观点,根据抽取线索算法得到关键词和命名实体集合作为每一条线索主旨,并将新闻报道归类到线索中作为其内容来结构化新闻话题。这样可以直观明了地把不同的话题线索表达出来,进而让用户对新闻话题的发展情况更加了解。
4)话题追踪。话题跟踪(Adaptive Topic Tracking,简写为ATT)的相关研究主要包括两个方面,一是以内容为基础;二是以统计为基础。如Juba Makkonen,Helena等人[17]提出了一种新的向量空间模型。该模型包含四个语义向量:地点、时间表达、人名、普通词(TERMS,描述发生了什么事情),以此来表示每个文档形成事件向量。不同于国外学术界多针对模型的研究方向,国内相关研究更侧重针对话题追踪本体的特色进行研究。如中科院学者使用被赋有不同权值的命名实体来标注文本特征,最后用词频与权值的相乘结果作为特征的最终权重。
5)新事件检测。新事件检测即查找出新闻话题子事件的首条新闻。薛晓飞等[18]学者运用特征加权的方法改进了对传统检测模型,并综合时间、地点、主题三方面的相似程度进行检测。
从研究目的来看,话题检测与追踪、事件相关多文档摘要与网页去重都是为了帮助人们解决信息过载的问题。可见提高用户获取信息的效率与质量是基于新闻要素研究的一个重要课题。另外,话题检测与跟踪的研究目标是要实现按话题查找、组织并利用来自多种新闻媒体的多语言信息,因而通过新闻话题线索抽取与事件相关多文档摘要获得话题要素是这两项研究的基础。由此可见,基于新闻要素的研究看似纷杂,却彼此联系、相辅相成,形成了一套较为系统、完整的体系。
基于新闻要素的研究及其应用的关系图
1.3.2 网络评论研究
(1)网络评论的特征分析
学术界目前对网络评论的特征分析主要从传播特征与语言特征两方面进行。
1)传播特征。确切来说即网络新闻评论的网络特征。网络新闻评论伴随网络新媒体而生,因而不可避免地具有一定的网络特点。潘英[19]认为这类特点主要体现为:种类形式更加丰富灵活;容量大,保存期限更长;交互更加频繁即时。
2)语言特征。韩书庚[19]在对网友评论进行研究时概括出了其具有的语言特点,包括词汇选取、方言、流行词使用、修辞、情感风格等等。通过一系列较为全面系统的研究,他最后将网友评论的语言特征总结为“网友评论风格以幽默、讽刺为主”。 新闻要素与评论元素国内外研究现状(2):http://www.751com.cn/yanjiu/lunwen_10382.html