在19世纪80年代,美联社首次指出,新闻要素就是新闻事实的主要构成因素,一般包括:何时(WHEN)、何地(WHERE)、何人(WHO)、何事(WHAT)、何故(WHY),后来增加了一个要素,即如何(HOW),被人们称为新闻751要素。由于上述这751个要素的英文表达中都有W这个字母,因此它们也被称作“751个W”。基于这个为学术界普遍认可的“新闻要素说”,一些学者也在不断地提出自己对新闻要素的创新性见解。如我国学者康兆强[2]认为,新闻要素除了“751个W”所代表的“新闻事实要素”,还应包括“观点要素”这一隐性要素。屈济荣[3]也对新闻元素的理解进行了拓展,他认为在故事化新闻中,“何事”向”情节”转变;“何人”向“人物形象”转变;“何时”向“过程”转变;“何地”向“现场”转变;“何因”向“内因”转变;“何果”向“语境设置”转变。刘坚[4]则指出,在深度报道中,“时间”要素既包含事实发生的具体时间也包含事实发展的时间过程,还包含事实由来的时间线索,其他要素也做了相应的拓展理解。19141
(2)新闻要素的主要抽取方法
学术界目前对于新闻主题和各种命名实体的抽取研究已有了较为丰富的研究成果。
1)主题。对于关键事件信息的识别,王伟、赵东岩与赵伟在《中文新闻关键事件的主题句识别》[5]中提出了基于标题分类的主题句提取方法。该方法首先根据新闻标题的信息含量将其划分为不同类别,接着利用新闻中文句的词频、长度、位置、与标题的相似度等特征来得出其重要性的量值,最终将主题句确定下来。
2)时间。李芳、毛顺福等在《中文新闻事件要素自动抽取研究中》[6]建立了网络新闻中时间要素的抽取模型与规则,分为四个步骤:新闻报道的预处理、时间表达式识别与标准化、时间表达式的推理与事件发生时间的识别。
3)主题-时间。新闻主题和时间信息之间所存在的密切相关性使新闻主题时间抽取成为近年来的一个研究热点。对此,赵旭剑、金培权与岳丽华[7]提出了主题-时间关系树(Topic Time Relationship Tree,TTRT),并设计了基于主题权重和无监督学习的新闻主题时间抽取算法,为不同特征的网络新闻提供了抽取主题时间的理论指导。
4)地名。戴思明在《互联网文本热点信息实体识别研究及应用中》[8]提出了网络新闻地名及机构名的识别方法。基于规则及 web检索的地名、机构名实体识别方法首先在一些实体知识库、识别法则等的基础上找出地名、机构名实体的触发位置,然后利用基于 web检索的方法完成地名、机构名实体的识别。
5)人名。戴思明[8]还在上述文献中建立了人名的抽取模式。基于规则及概率统计的中文人名命名实体双层识别方法,首先在人名实体知识库、词法法则等的基础上对人名进行初次识别,再结合人名实体前后向边界特征,利用人名可信度统计识别模型,以实现人名实体的最终识别。
6)人物实体关系。此项研究事实上已开展多年,目前已有了一些可以完成实体关系抽取任务的信息抽取系统。DIPRE(Dual Iterative Pattern Relation Expansion)是一个运用自举方法抽取命名实体间关系的系统,由Brin[9]于1998年提出。Snowball 系统是Agichtein等在对Brin的方法进行改进的基础上提出的。它对关系模式的定义更加灵活。FASTUS 抽取系统是由Appelt等人[10]提出的,通过引入“宏”的概念,运用更具迁移性、通用性的表达方式来阐述各领域中的依赖规则。可训练关系抽取框架(T-Rex, Trainable Relation Extraction Framework)是一个基于本体的关系抽取通用软件框架,由José Iria等人[11,12]提出。该框架的目的是要提供语义网自动化语义标注任务需要的灵活度[9]。 新闻要素与评论元素国内外研究现状:http://www.751com.cn/yanjiu/lunwen_10382.html