菜单
  
    1958年,Luhn提出了采用词频统计来提取摘要的思想。他采用词语的频率与分布信息来估计每个词语的相对重要度。然后再估计每个句子的相对重要度,得分高的句子就被抽取为摘要。
    60年代,Maron的工作把文本分类向前推进了一大步。他开创性地采用了贝叶斯公式来进行文本分类,用一组标引词来代表一篇文档,统计每个标引词在每个类别下的概率,计算该组标引词同每个类别的后验概率,最后挑选后验概率最大的类别作为该篇文档的类别。5773
    从60年代到80年代,采用知识工程的文本自动方法一直处于领导地位。这一阶段的主要特点是采用人工的方式来构建分类器。
    90年代以后,基于机器学习的自动文本分类方法逐步占据统治地位。因为基于机器学习的自动文本分类的正确性完全可与人工专家相当,但分类速度却要远远高于人工专家。几乎所有重要的机器学习算法都被引入到文本领域中来。比如最小二乘拟和回归模型、最近邻、贝叶斯、决策树、神经网络、线性分类器等等。
    90年代中期Vapnik提出了著名的支持向量机。支持向量机利用了结构风险最小化的原则,对有限样本情况下的分类器设计具有很好的效果。Joachims率先将其引入到文本分类中来。在这以后的很多文献中,支持向量机都表现出了较好的分类质量[1]。
    国外对于文本分类的研究开展较早,在以下一些方面取得了不错的研究成果。
    a) 向量空间模型的研究日益成熟。
    b) 特征项的选择进行了较深入的研究。
    c) 完整的分类算法的研究和比较。
    d) 逐渐开始研究未标记文本对文本分类系统的影响。
    e) 逐渐将文本分类技术应用到某些特定的信息服务中。
    国内对于文本分类的起步较晚,而且中英文之间存在较大差异,国内的研究无法直接参照国外的研究成果,所以中文文本分类技术还存在这一些问题。
    a) 缺少统一的中文语料库不存在标准的用于文本分类的中文语料库。
    b) 向量空间模型的研究还不十分成熟。
    c) 文本分类算法的研究不十分完整每个分类器通常只实现一种分类算法,然后进行测试和分析,缺少完整的多种分类算法性能的比较和测试。
    d) 文本分类技术与其他信息技术尚未很好结合
  1. 上一篇:滤波器国内外应用现状与发展趋势
  2. 下一篇:步进电机驱动技术研究现状及发展趋势
  1. IIR系统识别国内外研究现状综述

  2. 超大规模集成电路技术国内外研究现状

  3. 自动闭塞分区优化设计国内外研究现状综述

  4. 国内外转载机研究现状及未来趋势

  5. 液压试验台的国内外研究现状和发展趋势

  6. 高速液压冲击加载系统国内外研究现状

  7. 混沌加密通信国内外研究现状综述

  8. 十二层带中心支撑钢结构...

  9. 大众媒体对公共政策制定的影响

  10. 中考体育项目与体育教学合理结合的研究

  11. 电站锅炉暖风器设计任务书

  12. 当代大学生慈善意识研究+文献综述

  13. 河岸冲刷和泥沙淤积的监测国内外研究现状

  14. 酸性水汽提装置总汽提塔设计+CAD图纸

  15. java+mysql车辆管理系统的设计+源代码

  16. 乳业同业并购式全产业链...

  17. 杂拟谷盗体内共生菌沃尔...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回