菜单
  

    摘要数据挖掘是现今的研究热点。本次研究着手于新浪微博的数据挖掘,微博作为Web2.0时代新生网络应用形式,在最近几年中得到了迅猛的发展。本文通过新浪微博API获取新浪微博内容,统计某一博主的微博,通过高频词汇提取,构造停用词表,删除不常用词汇,使用TF-IDF值赋予权重,利用同义词表优化向量表,最后利用余弦算法计算文本相似度,使用K-means算法将微博聚类,从而研究聚类文本的特点以及K-means算法在网络文本数据挖掘的优点与不足。64786

    毕业论文关键词:聚类  WEB 数据挖掘 K-means 微博 文本相似度

    毕业设计说明书(论文)外文摘要

    Title  Research on Clustering in WEB Text Mining                             

    Abstract

       Data mining is a research hotspot. This study is based on Sina micro-blog data mining, Web 2.0 era as a new network application form , has been developing rapidly in recent years. This paper gets the Sina micro-blog content through the Sina micro-blog API ,and Census the micro-blog, remove common words, use the TF-IDF value to give the weights, using synonym table optimization vector table, finally calculated the similarity table . Using cosine algorithm and K-means algorithm ,we can cluster the micro-blog.Then we want to find advantages and disadvantages of K-means, in order to study the text clustering and K-means algorithm in network text data mining.

    Keywords: Clustering  Web  Datamining K-means micro-blog Text similarity 

    目   录

    1  绪论 1

    1.1  研究背景 1

    1.1.1  数据挖掘的内容 1

    1.1.2  数据挖掘的意义 1

    1.1.3 知识发现的过程 2

    1.2  聚类分析 2

    1.2.1  聚类分析简介 2

    1.2.2  研究现状 3

    1.2.3  传统的聚类算法概述 3

    1.2.4  基于划分的方法 3

    1.2.5  基于层次的方法 4

    1.2.6  基于密度的方法 4

    1.2.7  基于网格的方法 5

    1.3  簇间距离的度量方法 5

    1.3.1  欧式距离 6

    1.3.2  街区距离 6

    1.3.3  基于密度的距离 6

    2  文本数据的获取及其分词 6

    2.1  Web数据获取 7

    2.1.1  新浪微博开放平台 7

    2.1.2  新浪微博授权机制 8

    2.1.3  新浪微博API 9

    2.2  Web 数据清理 11

    2.2.1  中文分词及其方法 11

    2.2.2  分词算法的局限性 12

    2.2.3  停用词表 12

    2.2.4  盘古分词中文分词算法简介 13

    3  聚类算法介绍 13

    3.1  文本相似度算法

  1. 上一篇:LCC复杂产品研制费用估算系统设计与开发
  2. 下一篇:Android移动互联网的校园通知推送系统设计
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA+MYSQL《算法与数据结构...

  4. 神经网络算法在核素识别中的应用研究

  5. 人脸图像品质评估算法设计与实现

  6. Hadoop云计算环境下的Web应用日志安全威胁分析

  7. 基于RGB-D摄像机的图像分割算法研究与实现

  8. 带式输送机技术英文文献和中文翻译

  9. 分光光度法测定水溶液中有机酸含量的研究

  10. 公共服务均等化文献综述和参考文献

  11. 探讨“绿色生态”在都市设计中的体现

  12. 文化旅游主题展示设计广富林十里长街设计

  13. 合肥老乡鸡连锁餐饮企业的经营策略探析

  14. 《简爱》女性主义的象征

  15. 新生代农民工培训现状分析

  16. 机器人摩擦焊机头设计

  17. 圆柱绕流国内外研究现状

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回