毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

java搜索引擎的研究与实现 第7页

更新时间:2010-5-12:  来源:毕业论文
java搜索引擎的研究与实现 第7页
实现的关键代码如下:
public void Search(String qc, PrintWriter out) throws Exception {
    // 从索引目录创建索引
    IndexSearcher _searcher = new IndexSearcher("c:\\news\\index");
    // 创建标准分析器
    Analyzer analyzer = new ChineseAnalyzer();
    // 查询条件
    String line = qc;
    // Query是一个抽象类
    Query query = QueryParser.parse(line, "title", analyzer);
    out.println("<html>");
    out.println("<head><title>搜索结果</title></head>");
    out.println("<body bgcolor=#ffffff>");
    out.println("<center>" +
                "<form action='/NewsServer/results' method='get'>" +
                "<font face='华文中宋' color='#3399FF'>新闻搜索引擎</font>:" +
                "<input type='text' name='QueryContent' size='20'>" +
                "<input type='submit' name='submit' value='开始搜索'>" +
                "</form></center>"
                );
    out.println("<p>搜索关键字:<font color=red>" + query.toString("title") +
                "</font></p>");
    Hits hits = _searcher.search(query);
    out.println(" 总共找到<font color=red>" + hits.length() +
 "</font>条新闻<br>");
    final int HITS_PER_PAGE = 10;
    for (int start = 0; start < hits.length(); start += HITS_PER_PAGE) {
      int end = Math.min(hits.length(), start + HITS_PER_PAGE);
      for (int i = start; i < end; i++) {
        Document doc = hits.doc(i);
        String url = doc.get("url");
        if (url != null) {
          out.println( (i + 1) + " <a href='" + url + "'>" +
                      replace(doc.get("title"), qc) +
                      "</a><br>");}
        else {
          System.out.println("没有找到!");}
      }}
    out.println("</body></html>");
    _searcher.close();
  };

5.3在Tomcat上部署项目
Tomcat中的应用程序是一个WAR(Web Archive)文件。WAR是Sun提出的一种Web应用程序格式,与JAR类似,也是许多文件的一个压缩包。这个包中的文件按一定目录结构来组织:通常其根目录下包含有Html和Jsp文件或者包含这两种文件的目录,另外还会有一个WEB-INF目录,这个目录很重要。通常在WEB-INF目录下有一个web.xml文件和一个classes目录,web.xml是这个应用的配置文件,而classes目录下则包含编译好的Servlet类和Jsp或Servlet所依赖的其它类(如JavaBean)。通常这些所依赖的类也可以打包成JAR放到WEB-INF下的lib目录下,当然也可以放到系统的CLASSPATH中。
在Tomcat中,应用程序的部署很简单,你只需将你的WAR放到Tomcat的webapp目录下,Tomcat会自动检测到这个文件,并将其解压。你在浏览器中访问这个应用的Jsp时,通常第一次会很慢,因为Tomcat要将Jsp转化为Servlet文件,然后编译。编译以后,访问将会很快。
5.4小节
本章中详细介绍了如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索,最后还对Tomcat如何部署进行了说明。

第辣章 搜索引擎策略
6.1简介
随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。
由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。
6.2面向主题的搜索策略
6.2.1导向词
导向词就是一组关键词,它们会引导搜索器按照一定顺序搜索整个网络,使得搜索引擎可以在最短的时间里面得到最全面的跟某一个主题相关的信息。通过设置导向词以及它们对应的不同权值,所有标题、作者、正文或超连接文本中含有某一导向词的网页都会被赋予较高的权值,在搜索的时候会优先考虑。搜索器在向主控程序获得URL的时候也是按照权值由高到低的顺序。反之,搜索器在向主控程序提交新的URL和它的权值的时候,主控程序会按照权值预先排序,以便下一次有序的发给搜索器。
 6.2.2网页评级
在考虑一个网页被另一个网页的引用时候,不是单纯的将被引用网页的Hit Number加一,而是将引用网页的连接数作为权,同时将该引用网页的重要性也考虑进来(看看上面提到的例子,Yahoo!引用的网页显然比个人网站引用的网页重要,因为Yahoo!本身很重要),就可以得到扩展后的网页评分。
最早提出网页评分的计算方法是Google。它们提出了一个“随机冲浪”模型来描述网络用户对网页的访问行为。模型假设如下:
1) 用户随机的选择一个网页作为上网的起始网页;
2) 看完这个网页后,从该网页内所含的超链内随机的选择一个页面继续进行浏览;
3) 沿着超链前进了一定数目的网页后,用户对这个主题感到厌倦,重新随机选择一个网页进行浏览,并重复2和3。
按照以上的用户行为模型,每个网页可能被访问到的次数就是该网页的链接权值。如何

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 下一页

java搜索引擎的研究与实现 第7页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。