Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中约有3千万用户至少每天更新一次自己的状态;用户每月总共上传10亿余张照片、1千万个视频;以及每周共享10亿条内容,包括日志、链接、新闻、微博等。因此Facebook需要存储和处理的数据量是非常巨大的,每天新增加4TB压缩后的数据,扫描135TB大小的数据,在集群上执行Hive任务超过7500次,每小时需要进行8万次计算,所以高性能的云平台对Facebook来说是非常重要的,而Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。
以上三个系统代表了分布式系统已经十分有效地融入到各个实际应用中去,但是这扔是在不断发展的领域,未来的搜索引擎系统一定能拥有更强大的计算能力、稳定性以及扩展性,能够满足客户的需求。本文主要根据需求研究并实现基于Lucene的全文检索系统,并研究讨论其在分布式系统上运行部署的可行性及设计,以及一定的搜索优化