摘 要:在网络飞速发展的今天,大量的信息被保存发布到网络中,如何从海量的信息中提取出用户所需要的内容并推荐给用户成为一个需要解决的问题。HBASE 是一个开源的非关系型数据库,他能够支持多用户的访问,并且有着速度快,还可以跨平台使用的优点。我们可以按照 HBASE 规范,根据需求扩展 HBASE 的功能,将HBASE 很好地嵌入到自己的内容推荐引擎中,从MAHOUT的包结构上分析了MAHOUT在构建内容推荐引擎方面的优势, 描述了利用HBASE 和MAHOUT开发定制的内容推荐引擎的方法,实现了一个基于HBASE 的内容推荐原型系统. 37412
毕业论文关键词:HBASE ; MAHOUT ; 内容推荐引擎 ;
Recommended Engine System Research Based on HBASE Abstract: The rapid development of the network today , a lot of information is saved released to the network, how to extract information from the mass of the contents of user needs and recommended to the user as a problem to be solved . HBASE is an open source non-relational database , he was able to support multi- user access , and has a speed advantage can also be cross- platform use. We can follow HBASE norms , according to the needs of extended HBASE functionality will HBASE well embedded into their content recommendation engine , from the package structure MAHOUT analyzed MAHOUT advantage in building a content recommendation engines , and describes how to use MAHOUT and HBASE to develop a recommendation engine.developed a prototype system which is a recommend engine system based on HBASE.
Keywords: HBASE ; MAHOUT ; recommend engine ;
目录
1基于HBASE的推荐引擎..1
1.1推荐引擎.1
1.2HBASE对推荐引擎的支持.1
1.3本文研究内容1
2内容推荐引擎及HBASE概述..2
2.1信息获取与内容推荐引擎..2
2.1.1信息获取2
2.1.2内容推荐引擎的发展与分类..2
2.2HBASE的历史..3
2.2.1什么是HBASE.3
2.2.2HBASE的发展与现状.3
2.2.3使用HBASE能做什么3
2.2.4谁在使用HBASE3
2.3本章小结..3
3推荐引擎模型的设计4
3.1推荐引擎的几种模型.4
3.1.1基于物品和用户本身的.4
3.1.2基于关联规则的推荐..4
3.1.3基于关联规则的推荐..4
3.2内容推荐引擎4
3.3本章小结..4
4MAHOUT的推荐算法..5
4.1MAHOUT的推荐引擎概况5
4.2标准化的开发过程——以USERCF算法为例..6
4.2.1官方规范的开发过程..6
4.2.2数据模型.6
4.2.3相似度算法7
4.2.4邻近算法工具集.9
4.3推荐引擎的核心——推荐算法.10
4.3.1单机算法和分布式算法..10
4.3.2算法的评判标准..10
4.3.3推荐算法的API接口.11
4.4本章小结12
5构建推荐引擎.13
5.1如何用MAVEN构建MAHOUT项目.13
5.1.1下载MAVEN并配置环境..13
5.1.2用maven构建一个java项目..14
5.2构建单机模式推荐引擎.15
5.2.1为程序添加依赖..15
5.2.2核心算法——基于用户的协同过滤算法改.15
5.2.3根据要求构建推荐引擎..16
5.3HBASE的链接17
5.3.1操纵HDFSDAO和RecommenderJob.17
5.3.2结果分析..18
算法验证与总结20
6.1算法验证20
6.2总结..20
业论文体会21
谢.22
考文献..23
文翻译资料24
1 基于 HBASE 的推荐引擎 互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问题。 解决信息超载问题一个非常有潜力的办法是推荐系统[1] ,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。 基于HBASE的推荐引擎系统研究+源代码:http://www.751com.cn/jisuanji/lunwen_36157.html