除了HTML,还有 XHTML和XML,其中XTHML的X是可扩展,那么XHTML的意思就是可扩展的超文本标记语言,相比于HTML,它有着更严格的要求。打个比方HTML是我们常用的汉语,那么标准普通话说的就是XHTML。XHTML是一个很好的学习的开始,对于在刚刚接触网页设计的朋友来说是很好的选择。由于某些需要,XHTML将以前版本的HTML能够实现的一些功能交给了CSS和JAVASCRIPT,这意着你将需要学习三种技术。但是这确实是Web未来发展的潮流。
2.3中文分词系统
中文分词就是把一个汉字序列切分为一个个单独的词。分词就是把连续字序列根据一定的规范重组成词序列。我们都知道英文单词之间是以空格作为自然分界符的,而在中文的书写单位是字,而在词语这一层上,没有一个明显的分界符,而句和段有明显的分界符来划分,中文词语分析是中文信息处理的基础与关键。
中文分词能够用来文本挖掘,能够把一段中文序列切分为许多词,且可以让电脑自动识别语句含义。
中文分词技术属于自然语言处理技术范畴,人类是可以辨别在一句话中哪个是句子或词,哪个不是句子或词,但是计算机能否辨别这些词?这个处理过程就是分词算法。
搜索引擎利用中文分词,在纷杂的网页中找到所有结果非但不重要而且没有实际的意义,因为没有人能看得完几十亿的网页,但是最重要的是把相关的结果排的相对靠前,这也就是相关度排序。搜索结果的相关度排序会被中文分词的准确度直接影响。从定性分析来说,影响页面的返回结果的原因有搜索引擎的分词算法不同,词库的不同。
2.4文本相似度算法
在数据采集及大数据处理的时候,数据排重、相似度计算是很重要的一个环节,所以引入相似度计算算法。常用的方法有几种:、最长的公共子序列(基于权值空间、词条空间)、最长的公共子串(基于词条空间)、汉明距离(基于权值空间)、最少编辑距离法(基于词条空间)、余弦值(基于权值空间)等。
余弦相似性是最常用的文本相似度算法,其主要原理是:首先把两段文本分词,列出所有单词,其次算出每个词语的词频,最后把词语转换为向量,这样只需要计算两个向量的相似程度。
我们简单表述如下:文本1:我/是/丛林中/的/飞行军/ 经过分词,算出词频得出向量(伪向量)[1,1,1,1,1];文本2:我们/都是/丛林中/的/飞行军/ 经过分词,算出词频得出向量(伪向量)[1,0,1,1,2]。
我们可以把它当做是空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间会有一个夹角,如果夹角为180度,表示着方向正好相反;如果夹角为90度,表示着形成直角,方向完全不相似;如果夹角为0度,表示着方向相同、线段重合。因此我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。
3系统需求分析
3.1需求分析
新闻作为信息的重要组成部分,新闻管理作为新闻信息的重要组成部分,必须与信息同步,促进国民经济的发展和新闻的发展。随着网络的发展,更多的公司开始建设自己的网站,因为建设自己的网站更能展示出企业的文化、产品,并且便捷的发布新闻,而新闻分析与管理系统一方面可以很好地动态发布和管理最新资讯,另一方面可以可以筛选网络上众多相似的新闻,节省时间。
本系统功能模块主要分为前后台两模块,在前台模块中有新闻查找,新闻分类查看;后台模块中有:用户管理,增添新闻、修改新闻模块,新闻分类模块,新闻去重模块。数据的操作主要是:数据添加、数据修改、数据查询、数据分析、数据去重。