string HTML0 = httpClient.GetString();
string HTML;
HTML=PatternMatch.NormalPatternMatch(HTML0,"<p class=\"result\" id=\"result\">(.|\n)+</p>");
List<string> searchresullist = PatternMatch.MultiPatternMatch(HTML, "<p class=\"r-info|(\\sr-info\\d)\">(.|\n)*?</p>",true);
for (int ii = 0; ii < searchresullist.Count; ii++)
{
Sina sinaResult = new Sina();
sinaResult._RawString = searchresullist[ii];
urlList.Add(sinaResult);
}
for (int ii = 0; ii < urlList.Count; ii++)
{
urlList[ii].Analysis();
for (int ii = urlList.Count-1; ii >= 0; ii--)
{
if (urlList[ii]._Abstract == null)
{
urlList.RemoveAt(ii);
}
}
}
4.3 分词统计与分析模块详细设计
4.3.1 分词系统概述
分词系统主要是将一个语句切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。本文就是利用分词系统将新浪新闻的摘要内容进行分析。
分析统计将新浪新闻摘要中分词后提取的所有关系动词出现的具体次数记录下来,并以这些关系动词的出现次数的次数用冒泡法做排序。 网络特定文本信息抓取及统计(12):http://www.751com.cn/jisuanji/lunwen_3461.html