asp.net新闻分析与管理系统的设计(4)

除了HTML，还有 XHTML和XML，其中XTHML的X是可扩展，那么XHTML的意思就是可扩展的超文本标记语言，相比于HTML，它有着更严格的要求。打个比方HTML是我们常用的汉语，那么标准普通话说的就是XHTML。XHTML是一个很好的学习的开始，对于在刚刚接触网页设计的朋友来说是很好的选择。由于某些需要，XHTML将以前版本的HTML能够实现的一些功能交给了CSS和JAVASCRIPT，这意着你将需要学习三种技术。但是这确实是Web未来发展的潮流。

2.3中文分词系统

中文分词就是把一个汉字序列切分为一个个单独的词。分词就是把连续字序列根据一定的规范重组成词序列。我们都知道英文单词之间是以空格作为自然分界符的，而在中文的书写单位是字，而在词语这一层上，没有一个明显的分界符，而句和段有明显的分界符来划分，中文词语分析是中文信息处理的基础与关键。

中文分词能够用来文本挖掘，能够把一段中文序列切分为许多词，且可以让电脑自动识别语句含义。

中文分词技术属于自然语言处理技术范畴，人类是可以辨别在一句话中哪个是句子或词，哪个不是句子或词，但是计算机能否辨别这些词？这个处理过程就是分词算法。

搜索引擎利用中文分词，在纷杂的网页中找到所有结果非但不重要而且没有实际的意义，因为没有人能看得完几十亿的网页，但是最重要的是把相关的结果排的相对靠前，这也就是相关度排序。搜索结果的相关度排序会被中文分词的准确度直接影响。从定性分析来说，影响页面的返回结果的原因有搜索引擎的分词算法不同，词库的不同。

2.4文本相似度算法

在数据采集及大数据处理的时候，数据排重、相似度计算是很重要的一个环节，所以引入相似度计算算法。常用的方法有几种：、最长的公共子序列（基于权值空间、词条空间）、最长的公共子串（基于词条空间）、汉明距离（基于权值空间）、最少编辑距离法（基于词条空间）、余弦值（基于权值空间）等。

余弦相似性是最常用的文本相似度算法，其主要原理是：首先把两段文本分词，列出所有单词，其次算出每个词语的词频，最后把词语转换为向量，这样只需要计算两个向量的相似程度。

我们简单表述如下：文本1：我/是/丛林中/的/飞行军/ 经过分词，算出词频得出向量（伪向量）[1,1,1,1,1]；文本2：我们/都是/丛林中/的/飞行军/ 经过分词，算出词频得出向量（伪向量）[1,0,1,1,2]。

我们可以把它当做是空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间会有一个夹角，如果夹角为180度，表示着方向正好相反；如果夹角为90度，表示着形成直角，方向完全不相似；如果夹角为0度，表示着方向相同、线段重合。因此我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

3系统需求分析

3.1需求分析

新闻作为信息的重要组成部分，新闻管理作为新闻信息的重要组成部分，必须与信息同步，促进国民经济的发展和新闻的发展。随着网络的发展，更多的公司开始建设自己的网站，因为建设自己的网站更能展示出企业的文化、产品，并且便捷的发布新闻，而新闻分析与管理系统一方面可以很好地动态发布和管理最新资讯，另一方面可以可以筛选网络上众多相似的新闻，节省时间。

本系统功能模块主要分为前后台两模块，在前台模块中有新闻查找，新闻分类查看；后台模块中有：用户管理，增添新闻、修改新闻模块，新闻分类模块，新闻去重模块。数据的操作主要是：数据添加、数据修改、数据查询、数据分析、数据去重。 asp.net新闻分析与管理系统的设计(4):http://www.751com.cn/jisuanji/lunwen_42750.html