1.1 推荐引擎 现在的互联网时代,是一个信息爆炸的年代。如何让用户从网络上大量的数据中找到他们所想要的信息成为一个相当棘手的问题。内容推荐引擎的出现,极大的改善了这个问题,让人们获取信息的方式,从原来的简单的目标搜索定位,变为更符合人类行为模式的的信息推荐。随着推荐技术的不断发展,推荐引擎已经在电商网站,社交网站等多样化的网站上取得了巨大的成功。
1.2 HBASE对推荐引擎的支持 从技术层面来说,HBASE 和传统数据库或其他 NOSQL 数据库相比有着其独特的先天优势。HBASE 在某种范围之内,皆是线性的,所以只要增加相应硬件就能够处理更多的数据,满足推荐引擎数据增长的需要。同时他在处理故障切换时也有其独特的优势。高一致性和高效随机读写功能对推荐引擎有着极大的帮助。虽然 HBASE 还存在着一些问题,但我觉得HBASE 和内容推荐引擎的结合在未来的日子里是一个值得研究的课题。
1.3 本文研究内容 本文首先对 HBASE 和推荐引擎的历史和发展有一个详细的介绍,同时在第二第三章节介绍了基于 HBASE 的推荐引擎的几种实现方法和难点问题。在第四章,详细介绍了HBASE 建立索引和推荐的方法,从技术的角度,深层次的介绍了 HBASE 的分析器,文档格式,评分机制等。同时解析了 HBASE 搜索的几个重要的类。在第五章我们将亲手搭建一个简单的内容推荐引擎。 本文简单的介绍了基于 HBASE 的内容推荐引擎,实现了基本的内容推荐算法。虽然功能较为简单,但是开拓了 HBASE 与内容推荐引擎相结合的一个新的方向。麻雀虽小五脏俱全。我相信这个小的内容推荐引擎,对内容推荐引擎的未来的发展一定具有他独特的意义
2 内容推荐引擎及 HBASE 概述
2.1信息获取与内容推荐引擎 在计算机技术和互联网技术的迅猛发展的今天,网络的信息纷繁复杂,信息量也不断的增加,要在网络中找寻到自己想要的信息,那么内容推荐引擎是非常必要的。
2.1.1 信息获取 互联网正以一种迅猛的态势改变着这个世界。人们越来越依赖于从网络获取自己需求的信息。然而在纷繁复杂的网络世界,由于数据量过于庞大,想从这样的数据网络中得到自己想要的东西变得日益困难。这个时候就需要利用到信息获取技术。 信息获取是指在一定范围内,使用某种方法和技巧获取特定信息的过程。 首先我们需要明确我们所要获取的信息,其次我们需要确定获取信息的范围,最后我们要根据需求的不同制定不同的信息获取的技术与方法。 在日常生活中,我们最常见的信息获取的手段就是搜索引擎,然而当用户需求并不明确的时候,搜索引擎很难满足用户的需要。内容推荐引擎就由此而诞生。 下面,我就来简单介绍一下内容推荐引擎的发展和分类
2.1.2内容推荐引擎的发展与分类 a.发展历史 有人曾说,内容推荐引擎的鼻祖其实是黄页,黄页诞生于 19 世纪末。他把拥有电话的企业分门别类,这一点上和现在的内容推荐引擎很相似。 但我们所说的内容推荐引擎其实是在近 10 年内不断发展并自成一派,形成其独有算法体系的,它建立在互联网和计算机技术之上,所以我们很难把内容推荐引擎的缘起与哪个具体的产品对应起来。但是在它逐步发展的过程中,有很多里程碑意义的产品诞生。 1995年三月,斯坦福大学的 Marko Balabanovic 等人在人工智能协会上提出了个性化推荐引擎 LIRA。 同年8月,麻省理工大学在国际人工智能联合大会上提出了个性化导航智能体Litiza。这两者就是推荐引擎最早的实现。 1996年,雅虎推出了他们的个性化入口 My yahoo。 次年AT&T实验室提出了推荐引擎的协同过滤算法,这在推荐引擎的历史上具有跨时代的意义。 在之后的十多年里,推荐引擎以人们无法想像的速度不断发展着。2011 年,浪淘金CEO周杰提出了推荐引擎和推荐广告的概念,他预言道,未来的时代,无论用户在哪一个页面,都可以获得他想要的信息。 b.分类 根据推荐引擎的原理,推荐引擎大体可以分为三类 第一类,基于用户的推荐,如 FACEBOOK,人人网等,它根据用户的行为,将具有相似行为的用户进行推荐。 第二类,基于物品的推荐,如淘宝网的猜你喜欢部分,它根据用户的购买和查看历史,推荐相同或相似的物品给用户,从而达到推荐的目的 第三类,基于内容的推荐,这一种推荐方式是根据物品或用户的属性,标签,给具有相似属性的物品或用户进行推荐。 基于HBASE的推荐引擎系统研究+源代码(2):http://www.751com.cn/jisuanji/lunwen_36157.html