5 Acknowledge
Funding: Our research is funded by the “Initiative Research Unit” program from RIKEN, Japan. We thank all the PAR users, especially early ones like Rojan Shrestha for providing feedback and useful feature requests. We wish to thank RIKEN, Japan, for an allocation of computing resources on the RIKEN Integrated Cluster of Clusters (RICC) system.
摘要生物信息学家正在处理越来越多的计算密集型任务。 与此同时,工作站正在转向多核架构,甚至大规模多核可能很快就成为标准。 Bag-of-Tasks(BoT)应用程序通常在生物信息学中遇到。 它们包括大量独立的计算密集型任务。 本文介绍了PAR,一个可扩展,动态,并行和分布式执行引擎的任务任务。 PAR是针对多核架构和小集群。 显示了由于两种不同应用上的PAR获得的加速度。
可用性:PAR是根据GNU通用公共许可证版本3发布的,可以免费下载1。
1引言
生物信息学家是重要的高性能计算用户,特别是用于生物现象的模拟。另一方面,可用的硬件越来越快,但也更加并行化(英特尔公布的2007年在80核心原型芯片上工作)。在这种情况下,大多数生物信息学家可以从易于使用的软件中受益,以利用这样的计算能力。
本文的重点是Bag-of-Tasks(BoT)应用程序执行。顾名思义,BoT应用程序可以看作一个包,充满了任务,每个都独立于所有其他的。 BoT应用的中间件称为作业破碎机。它必须至少包括连接到一组客户端的服务器组件。
本文介绍了PAR,一个并行和分布式的工作管理工作在拉模式,并受桌面网格平台的启发。工作者加入计算并可以在运行时动态添加;服务器将任务提供给在给定时刻可用的工作人员。 PAR实际上是从以前的分布式中间件到小型HPC集群和多核工作站的一些概念和功能的转置。
本文的组织结构如下:第2节概述生物信息学中使用的相关项目和技术。第3节提出了两个使用PAR来说明可扩展性的例子。最后一部分列出了即将到来的增强功能。
2相关项目
过去二十年来,在生物信息学中已经使用了各种各样的工具和技术。虽然PAR是具有自己的利基的用户级工具,但它有一些限制。以稍微复杂一点为代价,下面列出的一些工具允许公平共享资源,更强的可靠性,甚至更快的作业或数据吞吐量。
在编程级别,消息传递接口(MPI,Forum(1994)),CORBA(对象管理组(1998))或甚至MapReduce(Dean和Ghemawat(2004))是值得注意的技术候选。MPI已成为编程高度并行应用程序的事实上的标准。它已经用于计算基因组学(Swain等人(2005))和分子动力学(Johnston等人(2005); de Lomana等人(2008))。论文网
对于客户机 - 服务器模型后的应用程序,可以使用CORBA。基因组图谱的处理具有成功的实例(Hu等人(1998),Jungfer和Rodriguez-Tome'(1998))。
对于数据密集型应用程序,MapReduce及其开源实现Hadoop2更为合适。它们对大量数据释放操作,最近在序列比对中使用Sadasivam和Baktavatchalam然而,在应用程序级别,桌面网格(DG)更接近本说明的重点。服务器将任务分发到位于不彼此通信的计算机上的工人,可在互联网上的任何地方。 Condor(Litzkow等人(1988)),XtremWeb(Fedak等人(2001))和BOINC(Anderson(2004))是用于高度并行,多用户应用的三个平台。生物信息学中最着名的DG项目之一可能是Folding @ home(Beberg等像Hadoop和不像大多数DG,PAR被设计为专用于私人资源。 PAR的理想规模比DG系统通常所针对的理想规模要小,但这允许较低的延迟。为了简单起见,PAR使用拉动驱动的任务分布。这消除了对复杂软件组件(称为计划程序)的需要,并且还允许即使在大型,动态和异构环境中也可以平滑扩展。此外,PAR从不需要管理员权限,只能按需运行。