毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络特定文本信息抓取及统计(13)

时间:2017-02-27 11:47来源:毕业论文
4.3 分词测试图 4.3.2 分词统计与分析系统模块流程 图4.4 分词系统流程图 4.3.3 分词统计与分析系统变量定义 表4.2 分词系统部分变量定义 序号 名称 类型 说


4.3 分词测试图
4.3.2 分词统计与分析系统模块流程
 
图4.4 分词系统流程图
4.3.3 分词统计与分析系统变量定义
表4.2 分词系统部分变量定义
序号    名称    类型    说明
1    word    string    关系动词
2    att    string    词性
3    count    string    关系动词数量
4    length    Int    关系动词出现频率
5    i    int    频率次数变量
6    j    int    频率次数变量
7    temp    Worditem型    关系词及出现频率
4.3.4 分词统计与分析系统核心代码
public class MySegment
{
    public List<worditem> Wordlist= new List<worditem>();
    public  void Segment(string sentence)
    {
        string DictPath = System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase + @"\data\";
         WordSegment ws = new WordSegment();
         ws.InitWordSegment(DictPath);
         try
         {
             ws.sentence = sentence;
             ws.StartSegment();
             List<WordResult[]> wordList = ws.WordList;
             for (int j = 1; j < wordList[0].Length - 1; j++)
             {
                string postString = Utility.GetPOSString(wordList[0][j].nPOS);
                postString = postString.Substring(0, postString.Length - 1);
                worditem wd = new worditem();
                wd.word = wordList[0][j].sWord.ToString();
                wd.att = postString;
                Wordlist.Add(wd);
              }
         }
    }
}
int length = wordlist.Count;
for (int i = 0; i <= length - 2; i++)
{
    for (int j = i+1; j <= length - 1; j++)
    {
       if (wordlist[i].count < wordlist[j].count)
       {   worditem temp = wordlist[j];
           wordlist[j] = wordlist[i];
           wordlist[i] = temp;
        }
     }
}  
4.4 保存指定日期的文本模块
4.4.1 概述
   将抓取模块中的时间变量 NewsTime  列在选择框中,选择一指定的日期。利用office的接口,将选中的新闻摘要保存到本地word文档中。 网络特定文本信息抓取及统计(13):http://www.751com.cn/jisuanji/lunwen_3461.html
------分隔线----------------------------
推荐内容