所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

并行化的生物基因测序技术与史密斯沃特曼算法进行了优化

Ananth您正在G1Ganesh Aithal博士2
  1. CS&E学系助理教授,Sahyadri工程学院&管理印度芒格洛尔
  2. 教授,HOD CS&E P.A.工程学院,芒格洛尔、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

提出研究工作代表一个高度健壮和高效的并行计算系统开发生物基因测序。在本研究工作,现有方法提供了优化的最优的方法至今铁匠铺沃特曼基因对齐算法的形式或本地基因测序。本文主要强调回溯辅助的系统开发最优对角测序方法开发与史密斯沃特曼和迈尔斯和磨坊主技术进行优化。考虑优化方法可以坚定地表示,提出了工作不仅提高了效率,也有利于优化内存占用高的竞争巨大的数据集和模式的可能性。

关键字

均为(SW) Myers-Miller算法,对角线平行测序和对齐的方法(DPSAA)、动态规划、回溯,伪代码

介绍

生物序列比对

比较两个序列,我们需要找到最优之间的对齐,这是把一个序列上其他明确之间的对应关系类似的人物。对齐,空间可以在任意位置插入序列。基本上,一个对齐方式可以是:
1)全球,包含所有字符序列;
2)当地,包含子字符串的序列;或
3)半全局前缀或后缀组成的序列,领先/落后差距将被忽略。
为了测量两个序列之间的相似度,计算得分如下:给定一个一致性序列S0and年代,以下值被分配,例如,每一列:
1)= + 1,如果两个字符是相同的(匹配);
2)心肌梗死= 1,如果不相同的字符(不匹配);和
3)G = 2,如果其中一个字符是一个空间(gap)。
比分是所有这些值的总和。图1展示了一个可能的对齐两个DNA序列及其相关的得分。在图1中,一个恒定的值分配给缺口。然而,保持空白一起产生更显著的结果,在一个生物的视角[1]。出于这个原因,第一个差距必须有一个更大的惩罚比它的扩展(仿射差距模型)。第一个差距是点球G第一对于每个连续的差距,处罚Gext。的区别G第一——Gext点球的差距吗Gopen。
图像
图1:校准和分数之间的序列S0and年代,
在拟议的系统模型中,史密斯沃特曼算法的实现已经发生在两个连续的步骤。
1。计算DP矩阵
2。获得最优排列
第一阶段算法得到的输入序列S0和S1,分别与尺寸m和n。序列S0and S, m + 1, n + 1可能的前缀,分别包括空序列。的符号用来代表第n个字符序列seq是seq[n],代表一个前缀n字符我们useseq(1,n)。相似矩阵表示H,在那里H我,j之间的相似性得分包含前缀年代0[1。。我),年代1[1。。j]
在一开始,第一行和列充满了0。剩下的H元素获得(1),在p(我;马j) =(匹配)S0[我]S1 [j]否则和mi(不匹配)。为了计算缺口模型,根据仿射差距两个附加矩阵F E(2)和(3)是必要的。即使这样,时间复杂度仍然是二次。
最优序列之间的分数S0S1是最高的价值H和位置(i, j)这个值出现代表对齐的结束
图像
图像
图像
步骤2。(获得最优排列)。
获取最佳的局部比对,该算法从细胞包含得分最高,箭头直到到达一个新鲜感细胞(图2),左箭头H我,j显示的一致性S0[我]的差距如果。一个向上的箭头代表对齐的如果[j]的差距S0。最后,对角线上的箭头表示S0[我]是与如果[j]
图像
图2:DP矩阵序列S0and S1。大胆的箭头表示回溯来获取最优排列。

文献调查

Hsien-Yu廖等[37]提倡使用均为模式生物基因序列算法考虑的动态编程方法具有更高的灵敏度。在他们的工作,他们促进提高执行速度的显著增强,传统的序贯方法表现出它的优越性,同时保留在其功能和性能敏感性相似。
Arpit, g . et al [38]开发出一种高贵的建筑称为对角线性空间对齐算法FastLSA的增强形式。独特的和健壮的方法开发和更高的数据集的大小能够执行。也该方法执行过程动态编程的对角线矩阵的存储数据以不同的方式完成FastLSA,展品存储的行和列。研究人员分析和实验证明了他们比FastLSA算法性能更好。
Gardner-Stephen等[40]开发了一个算法对基因组和蛋白质组序列称为破折号。开发方案的后果为更好的性能的提高执行速度比2.2.6 ncbi blast。参考系统。动态规划的实施导致了许多增强,增强系统的高度健壮和高效的勘探项目。提高DP的效率提供了一个机会来提高灵敏度,或大大减少搜索时间和帮助抵消的影响持久的高速率增长与不同数据集的大小不同。
这个地方,点等[41]提出了n极发光做好准备组织细胞均为算法的并行化宽带引擎阶段,一个新的交叉多核结构设计限制成本Playststation3 (PS3)安慰和玩游戏IBM BladeCenter如目前,权力最大的超级计算机世界,走鹃在洛斯阿拉莫斯国家实验室。在发明映射的最有利的均为算法的一个游戏机PS3集群节点,在完成这个研究提供了20个50 5折叠起来速度高于高架端多核结构设计以及449−褶皱加速超过PowerPC处理器在PS3。随后,研究人员估计,权衡在史密斯-沃特曼完成细胞的获得软件添加到硬件实现以及说明解释达到最杰出performance-toprice比率,同时调整现实系列维度和产生或形成真实的比对。最后,研究人员证明了低成本的解释在PS3集群推进的速度爆炸而达到理想的同情。列举2算法速度条件之间的关系以及灵敏度,研究人员正式描述以及列举同源性研究技术的灵敏度sequence-search解释之间的权衡,从而可以在定量评价方法。
里德尔等[58]集中在空间行动升值问题算法基座史密斯-沃特曼(SW)当地安排。预计均为(SW)技术与二维空间信息消费活力的编程枚举进程比较。史密斯-沃特曼(SW)发光适合空间行动升值的技术是健康的声音,以及可以提供住宿的差距,从巷道系统重要的错误。不同的其他技术史密斯-沃特曼(SW)能够定位以及衡量行为中根深蒂固的不相关的空间数据。与3类数据信息集合在测试过程中,研究人员证明了提出的均为(SW)算法是主管确定精确的不严密地分割空间序列。标准分类的方法表示研究人员评估到单独的隐马尔科夫模型(HMM)。结果表明,均为(SW)正确性证明高于隐马尔科夫模型(HMM),除了保持优越的分类正确度与小训练集的大小。
Cehn C等[75]提出了一个算法来计算最优算法的两个序列比对线性空间和二次时间。研究人员证明该算法可以有效地并行计算上的PC集群和网格以减少其运行时明显。网格实现使用分层的方法结合inter-cluster和intra-cluster并行。
巴蒂斯塔,R。B等[76]提出的算法均是一个精确的计划技术,抓住最有利的局部比对二次自由和时刻。长序列,二次困难创造了这个算法的使用不方便。在这种情况下,并行计算是一个非常有吸引力的替代品。在这篇文章中,研究人员提出并评估z-align,并行的策略基于散度概念在本地长期生物序列对齐使用仿射函数的差距。Z-align运行在有限的内存空间,内存使用量可以由用户定义。结果收集在一个集群中有16个处理器提出了很好的加速效果长时间真正的DNA序列。通过比较结果z-align和爆炸,很明显,z-align能够产生更长和更重要的比对

Myers-Miller和反向追踪算法

长时间序列,空间是一个限制因素的最优定位计算。迈尔斯和米勒(MM)是计算最优全局比对的算法在线性空间。它是基于Hirschberg[101],但应用后藤[102]。Hirschberg的算法使用递归划分和征服过程获取最长公共子序列。该算法的思想是找到LCS的中点使用获得的信息从正向和反向方向,每个方向保持在内存中只有一行在线性空间(因此)。鉴于这种中点,问题是划分在两个规模较小的子问题递归划分更多的中点。
MM算法如下。
让S0and S1序列,大小m和n,分别* =/ 2
图像
图3:递归过程分解为毫米。
图像
找到的中点对齐,之间的匹配算法执行过程:1)向量CC和RR; 2)向量DD和党卫军。中点坐标(i, j *),满足了最大值的位置在哪里(4)。
图像
中点后发现,问题是递归分割成更小的子问题(图4.3),直到发现微不足道的问题。CC的匹配与RR代表一个结的正向与反向排列没有差距,DD的匹配与学生代表结有差距。当在两个方向上都有一个缺口,收到一个缺口打开点球,这重复处罚必须调整。

系统建模与软件算法

短暂和史密斯沃特曼的泛型函数的方法已经在前一章讨论的一般特征及其实现进行并行计算的基因测序或基因比对应用程序。西南技术执行计算最优局部比对对某些成对的数据序列按照评分机制提出的一个替代矩阵和某些函数命名为罚函数的差距。另一个矩阵函数叫做替换矩阵是一个对称矩阵进行作业成本的共同基因顺序配对基地。最终的计算成本估计某些替代出现在数据分析和检索相关数据或生物序列比对。个人提供有效的数据对某些分数代表观察到的事件顺序排列这些发生的进化相关数据序列。检索到的数据集也代表个人基地的采样频率尽可能少的基地突然出现更多比其他。通常分配各自的身份最大可能分数,还经常发生替换提货的派生或分配积极的分数,但执行或展品极不匹配,形成由某些负面分数惩罚。也均为备份的方法惩罚缺口数据序列,以优化或替换矩阵最大化。系统参数罚函数具有差距影响差距的长度和频率适用的数据或序列比对。
一般来说有三种差距惩罚函数。有如下:
图像
定或固定间隙函数允许一个固定成本个人缺口位置,无论其在序列对齐的位置。孤独的仿射差距函数执行处罚上一代的差距,以说服新的扩展可用的空白位置的分配差距,尽管形成任何新的。变得更可信的差距在生物序列框架作为一个缺口多可以考虑统一的进化事件。这种方法是延长双仿射函数通过展示某些个人差距差距点球每差距空间做进一步扩展差距比阈值的空间;经常设置比说服长的长度的差距较小。在本研究工作中,作者实现了这个功能,因为它加强的泛化固定变量和单一功能(单一)仿射差距。最有利的序列比对这种评分方法建立了评估一组重复联系超过单个细胞的动态规划(DP)查找表。
说明,下面提到的表情估计最优关联通过实施优化调整方案与单一仿射差距罚函数:
图像
图像
图4:说明动态编程的数据依赖。
在上面介绍了图4可以可视化,细胞个体对角线是相互独立的,而这些都取决于细胞从其最后两对角线。
考虑,图像指两个输入数据序列,做执行匹配的替换成本矩阵b,另一个变量是指单一的仿射惩罚函数用于差距的形成和扩展。考虑罚函数的双仿射差距有过渡的需要差距长度与D,以选择最优惩罚b。M的主要目标是执行追踪一致性矩阵或得分最高的动态编程表中的所有组成细胞。这最终的最优比对的得分会传播到最后细胞矩阵,j。单个变量的指针或细胞;j总是保持执行跟踪细胞的位置可能的得分最高的对齐和简化的跟踪与追溯的一步。
如下图(图5)展示了数据依赖关系被认为是估计的递推关系动态编程查找表。某些系统功能在单处理器,动态编程查找表以顺序方式处理但同样在基于多处理器的系统中,它可以有效地利用数据依赖关系而表现出一定的独立细胞个体动态编程表中对角线平行块(最小值(;n以并行方式)细胞)。此外,数据依赖关系可以所指的其他贡献而言,这种性质允许缓存优化的机会,因为它只有两个对角线加工而表现出计算通过这样一个充分大的缓存可以优化缓存一致性。
拥有p =最小值(;n)处理器,动态处理查找表可能有效地估计(m + n;1)经过与个别对角线平行执行顺序处理细胞。遗憾的是,存在一些腐烂损失一些处理器时必须摊位展示non-major对角线。,在这种情况下,最高或摊位的总计数动态规划计算p (p1)。然后,查询序列一般表现出多个目标序列的对数据库进行匹配,从而动态的估计计算表和交错在一起,摊销处理处理器摊位。
图像
图5:表示数据的依赖(a)允许细胞评估分配一组处理器。(b)。精疲力竭的细胞或空间,可以有效地分摊到多个查询序列比较通过加入各自的动态编程查找表如图(c)了。
在这个工作和准备论文,作者不仅提高了模式符合小说对角测序史密斯沃特曼的模式,也使得增强技术虽然考虑迈尔斯和磨坊主技术进行回溯和反向和对角线的顺序排列。新奇的研究工作是基于一个平行的发展和对角序列比对系统,可以执行远比其他现有的串行和并行比对方法。
为了实现这一目标,作者结合一些优化改进的中点估计,最优平均,和跟踪支持设施和顺序向前回溯的距离估计扭转以及序列完成对角排列和并行计算。提升部分代表算法开发了实现研究目标和主要系统增强。
提高了通用的本地基因测序方法通过一个高度健全和优化回溯设施和内存优化。这是迈尔斯的所做而考虑和磨坊主技术。为了实现总体目标,在这个研究工作,优化每一个包含组件或因素,能有效地提高基因定位和最优计算设备。迈尔斯和米勒算法的考虑这个系统非常有效的减少空间约束,从而整个系统出现了高度影响最小的内存利用率而言,明智的比对,路径跟踪,跟踪路径检测、中点计算等,最终发挥了重要作用在基因测序史密斯沃特曼(SW)方法。
以下部分的因素阐述了开发和优化,以实现终极目标的研究工作。

Intra-Task内核启用回溯

序列比对问题之间找到最优排列查询序列长度问m符号和一个数据库从一些字母序列长度d n a在大多数生物信息学应用程序中,一个由代表氨基酸或核苷酸象征。确定一个特定的分数排列,得分函数图像用于分数每一对符号对齐。缺口打开点球ρ,点球σ缺口延伸,通常用来惩罚未配对符号的差距。
在实现均为(SW)算法是一种动态编程算法,将决定最优q和d w之间的局部比对,p,σ。SW填写三个M×N表E, F和H方程所示下面提到。最优比对的得分是由最高得分表H .细胞H的依赖关系如图6所示。
图像(5)
可以找到最优校准通过回溯H,但对整个数据库查询序列的比较,我们通常只关心分数而不是实际的对齐。表可以计算的计算复杂度O (nm)但是,当只需要最优分数,空间复杂性是线性的。
图像
图6:依赖性的细胞H史密斯沃特曼算法。
虽然细胞更新矢量化,查找序列的相似性函数。为了解决这个问题,一个查询配置文件创建一个矢量化查找表的相似性得分是独特的对于一个给定的查询序列。查询序列分为块长度等于流使用的向量长度SIMD扩展(SSE)。的配置文件是由存储向量相似性得分为每个查询序列相比,所有的字母符号。这使得相似性函数并行执行查找。现有方法一般使用查询档案在inter-task内核,我们利用查询档案在我们改进intra-task内核比较一个查询序列数据库的序列。每个内核使用不同的策略来找到最优的分数。对于每个查询/数据库序列对,只使用一个内核。如果数据库序列长度低于3072,任务间使用内核。否则,使用intra-task内核。 The author in this research work has employed improvements solely in the intra-task kernel.

Inter-task:

inter-task内核使用一个线程来比较查询序列和目标。瓷砖的表成8×4块由相同的线程按顺序计算行顺序。线程将计算每个单元在瓦列顺序,存储所有值所需的依赖项在瓷砖在寄存器中。一旦计算瓷砖,底下一行存储在全局内存和最右边的列存储在寄存器来满足所需的依赖项接壤。

Intra-task:

intra-task内核使用整个线程块之间找到最优比对的得分查询序列和数据库序列。没有使用瓷砖,通常的波阵面平行的计算表。因此,块中的所有线程很忙只有轻微的对角线的长度是每个块的线程数量的倍数。
在提升部分的手稿,作者提供了一个展示顺序的详细算法开发符合intra-task内核建立并行化方案与史密斯沃特曼(SW)算法进行了优化。

序列距离计算

计算两个序列之间的编辑距离和调整基于编辑距离的两个序列是一个计算密集型的过程。这个问题变成了n次当序列的数量,这些操作必须做的是巨大的。许多领域因此避免使用编辑距离作为一个可能的解决方案来解决问题。因此在这部作品作者整合优化序列距离的计算方法与计算相关矩阵和节点。
这个事实上完成一个有效的序列距离计算的需要有一个潜在的成对基因比对方法,为了得到它在本文作者开发和优化两两对齐的方法可能是一个重要因素来计算两个序列之间的编辑距离,然后使这些序列与一个固定数量的插入,删除和不匹配。两个序列之间的编辑距离计算还发现在其他领域中的应用。一些方法例如编辑距离算法来检测相关的攻击在分布式系统探讨了提取的好处在我们的工作编辑距离的方法来识别入侵的类型。利用编辑距离的方法是找到的动机有多近两个字符串来自彼此,相应地自动检查拼写的单词。这个过程涉及到的计算编辑距离数以百万计的序列,然后这些序列的一致性。一个有趣的应用程序的编辑距离和对齐两个序列在Bio-Computation。生成DNA数据的机器进展快速得多比的技术来分析这些数据。实际上这是一个深奥的问题在我们处理bio-computation域。在提升部分的细节提供了两两对齐算法的发展。

两两对齐

拟议中的成对排列的系统开发方法介绍如下。
给定两个序列D和Q与长度Ld江西他们的遗传距离可以分别估计以下数学表达式。
图像
图像
图7演示了SW算法的伪代码的实现。该方法是一种改进的版本的基础上,实现了在第三章中,在不同的双序列分配给不同经纱的线程。为每个单独的经纱,线程合作和交流通过共享缓存线程同步程序。如图4.8,一致性矩阵分为平行四边形,以便计算分为三个阶段。
让2×32共享内存块存储每个数据库序列的分段,让32个寄存器存储每个部分。
图像
图像
图8:计算矩阵的结构为每一对序列
在stage1,第一个32 c内存空间(tid)初始化为0,表示没有意见。以下32 c内存空间(tid + 32)然后加载主题人物。最后一行第一个平行四边形是由tid_31处理。字符的范围是从c_0到c_31处理。
在stage2, c (tid + 32)通过字符c (tid)之前阅读新角色。
在stage3, c (tid + 32)通过字符c (tid)之前设置为0,表示虚拟人物。经纱排列的细胞在底部行矩阵在图8中由32th首先传递给共享内存线程和写入全局内存之后两个halfwarp写操作的线程。
图7中的伪代码的计算每个阶段最内循环称为不同分段的序列。中间数据,HF通过共享内存传输,在每个平行四边形。的交换HF接下来的小节的查询序列首先传递给共享内存,然后存储在全局内存。对角线的计算依赖于对角线上的值- 1和对角2。因此,整体比对的得分排列矩阵可以发现在线性内存空间。之后,实现扩大规模来计算准确的匹配字符之间的最优使用Myers-Miller局部比对算法,并提出了减少内存复杂性从O (Ld×Lq)线性内存空间O (Lq)最优比对。
图像
图9:细胞和内存之间的数据依赖关系的层次结构

搜索最优的中点

如上所述,当地最优区域的一致性矩阵可以由两个计算两两对齐方式实现,一个正向和反向。实际的跟踪路径可以使用Myers-Miller算法找到。如上所述,算法的核心思想是递归搜索最优排列残留,这是一个最优的中点转换使用正向和反向只有两两对齐。下面提到的表达式给出了两个序列之间的匹配的字符数:
图像
这里m (i, j) = 1如果d = qj和0。从上面提到的数学表达式,最大N (i, j)代表的数量匹配字符O (Lq)内存空间。由于内存消耗的这种方法与序列长度的平方增长,在此方法中,并行的线程的数量是有限的。因此,这种方法可以执行,但肯定不可行实现高性能的加速度结果。性能显著降低当校准数据集长序列的长度。其中一个主要的限制多数现有方法有点与线性内存空间,因此计算复杂度。因此作者已经讨论过,为了消除这种缺陷在现有的方法中作者在本文采用高度健壮Myers-Miller算法来克服线性内存空间的问题。这些是Inter-task并行策略和Intra-task分别并行化策略。前者利用单线程来处理应用程序的一个特定的问题,虽然后来利用一块线程特定问题划分为子问题每个线程处理相关的子问题。同时考虑inter-task并行方法的作者意识到它的主要缺点的形式计算最优中点在这个实现是由不足引起的各种细胞的数量为每个递归。 For instance, given two sequences D and Q, composed of identical characters and having the same length L (L = 40), the computation order of midpoints in both D and Q and the number of characters involved in each recursive operation. The maximum size and the minimum size of the matrix computed in the forward pass and reverse pass are 1600 and 4 respectively. Therefore, the number of characters involved varies considerably and given a fixed number of threads, loss of performance is inevitable because of thread load imbalance in the search of optimal midpoints. The computation leads to idle operations of threads when the number of threads is bigger than the characters in each sub section of D or Q. The actual thread usage ratio degrades to 1 / �� when computing a sub-section with only one character, where N is the number of threads allocated to process each sub matrix.
在本研究工作中,为了达到更高、优化系统模型和顺序排列设施作者还包含一个系统模型改进Intra-task并行化策略。最重要的是,选择一对序列的序列和递归划分成段的长度相等。这个操作后就会停止最后一段的长度小于一个阈值T。因此,潜在的块的数量分开可以预测整个矩阵。在另一个序列最优中点可以使用Myers-Miller算法计算一个接一个。然后,在每个子矩阵计算细胞的排列方向存储在共享内存,以便以后跟踪路径可以访问。策略使用Intra-task Myers-Miller算法并行化方法。这个建议的方法是这系统的独特性并不计算所有中点作为跟踪的要求的概要文件路径可以通过连接几个点序列。首先,主题序列一对对齐除以数量的线程,直到最后一段的长度是足够小,这样它的矩阵排列可以存储在共享内存。中点的个数可以推导出部门执行的数量。其次,中点对查询序列对应于这些主题序列相同的一对可以通过找到前进阶段计算和反向阶段计算。一个¯害怕害怕一个½¯½跟踪带(见图10中阴影区域)然后通过链接序列上的所有相应的中点。 Until now, the actual trace path still has not been found, but it is obvious that the trace path should be within the trace belt. In some cases, the interval value between two neighbouring midpoints in query sequences is bigger than the number of threads, which is possible if there are enough gaps in subject sequences. Therefore, the query segment needs to be divided until it is small enough for shared memory data storage. Blocks composing the trace belt are then computed one by one with directions stored in shared memory. The overall trace path is the concatenation of all small trace paths in sub blocks.
图像
图10:跟踪皮带的调整矩阵
为追踪相结合开发的算法或跟踪带已在图11。首先,计算子块的数量使用主题序列的长度。这是通过递归划分主题序列在两个直到结果子的长度等于或小于宽度的矩阵在共享内存。r_no = 1意味着子块的最终数量= 1查询序列的长度是否足够小。否则,一致性矩阵的大小超过了共享缓存的存储。在这种情况下,整个矩阵,通过正向和反向加载计算找到最优中点对查询序列测定后主题序列的中点。后者被定义为主题序列的大小的一半计算。C我R和S是向量。
图像
图11:伪代码的计算优化中期点在我们提出的方法。

最优排列追溯

至此,完整的跟踪路径尚未发现,并不是所有的中点被计算。图12给出了伪代码的每个子块对齐追溯。虽然初步跟踪配置文件由子块被发现,子块仍不能放入共享内存如果他们的高度大于线程的数量,这发生在子查询序列的长度超过相应的子主题序列的长度和最优比对需要插入空白主题序列。这不是常见的同质序列数据库,特别是在局部比对。然而,对于数据库组成的异构序列,通常有差距的最佳定位。在这里,有必要检查查询序列的sub-length做最终对准的目的通过执行伪代码如图12所示。在这里,我们将查询序列而非主题序列。之后,每个子块通过图10中的伪代码的方向对齐细胞存储在共享内存。在拟议的方法中,常数1,2和3是用来表示左边,分别上和左上角的方向。的起点是初始化为0。 Finally, the optimal alignment can be found by tracing from the cell in the bottom-right corner to the cell in the upper-left corner in the shared memory. The shared memory is then used iteratively for the next sub-matrix.
图像
图12:伪代码的计算匹配字符序列的一对。向量记录跟踪路径在进步的阶段需要对齐。

指导树

[103]Neighbor-Joining (NJ)方法用于构造一个un-rooted树。详尽的从远处节点遍历矩阵之间的距离来确定两个最近的节点在每一个步骤。一组序列的N,每一对之间的距离的数量N * (N - 1) / 2。遍历找到最小的距离值,将两个最近的节点组成一个新的节点,直到N等于1。一个un-rooted NJ树产生的方法。自的时间百分比的建设和支持引导树相对较小。

并行化的进步对齐

进步的阶段对齐对指导执行profile-profile对齐树从叶节点到根节点。叶节点代表的原始序列初始后代节点组成的内部节点。后者是由两个节点保持一致。对于每个内部节点,选择在他们的后代有三个组合,即1)两个序列,两个节点2),3)一个节点用一个序列。内部节点只能当他们对齐左子节点和右子节点执行。因此,节点的计算顺序可以并行使用并行处理批次。节点的左子节点和右子节点可以在相同的批处理计算执行。在拟议的方法,逐步引导树的对齐可以执行以下步骤:
首先,依赖结构对应于引导树的每个节点创建并用于存储每个节点的属性。每个内部节点的结构包含它的后代,后代和一个一致的标记位表示该节点是否在等待队列。对于每个叶节点,其左孩子和右孩子都设置为0,因为它没有后代。自动标记位设置为1。第一次发射总是表现在内部节点的后代都是序列。图12中的伪代码提交每个sub-trace追溯过程。进步的对齐,有一些差异在图12给出伪代码,不仅最优排列分数也最优比对需要传递给主机在这个实例中。因此,每一对的概要文件,两个阵营之间的差距是积累在特定位置和存储在全局内存的两个空白列表向量。基于这些列表,对应最优比对节点构造成对的主机。对齐的后代节点打包到新的配置文件。 Their aligned flags are then set to 1 and are added into a ready queue for the next launch. These operations are performed iteratively until all internal nodes are aligned.

结果

提出工作高效和优化生物基因测序和史密斯优化方案沃特曼算法功能迈尔斯米勒方法和Intra-Task并行方案开发。在这个工作中,一个完整的系统模型与目标想出一个对角线测序方法,可以执行比现有的串行或并行测序技术。这是事实,建筑和处理序列模型,导致参数矩阵的估计很简单等优中点估计,最佳向前追踪相结合的方法,采用反向和对角线测序等。整个系统独特性与史密斯沃特曼地面扎根算法和优化内存的限制因素;作者采用迈尔斯和米勒算法仿真场景。
在系统仿真现象三个开发系统模型。一个序列测序而第二主张平行测序和处理方法,而第三个代表了小说作者按对角线顺序提出的系统。整个系统已经在微软Visual Studio开发平台和c#、。net编程语言已经首选的系统开发。开发系统模拟了不同查询执行时间序列长度。同样,加速比已经估计了不同序列长度。这个事实上数学表达式和处理方法使优化的对角线测序方法,因此产生的后果也合理。提升部分结果及其意义进行了分析讨论了明显的尊重发达系统模型及其各种操作性能参数的鲁棒性。
图像
图13:执行时间分析
图13显示了查询执行时间与不同的序列长度。之间的相对性能串行计算,并行方法和斜方案,它可以在这里找到,较低的序列长度对角线测序方法是最佳,因此它说明了微不足道的时间执行任何查询。另一方面根据序列长度增加它增加但串行顺序和并行方法相比仍然是很微薄的。这是由于矢量化检索查找表和指标的动态可编程(DP)表。
图14还主张相同的语句比较图可以发现,更高的数据项或序列长度每增加对角序列过程和基因定位的表现与其他方法相比要好得多。在序列测序方法的执行时间相比相对较高平行或提出的对角线,这是因为串行处理受损,估计所有邻国的DP表系列矩阵,因此完整的数据估计需要多少时间来完成整体排序。即使这种方法采用较高的内存缓冲区的内存占用会更高,因此系统会变得笨重,因此不能被一个优化的解决方案目前的需求。
图像
图14:倾斜的执行时间进行查询分析
图15和图16显示了加速比的并行块测序和平行斜块排序方法。从这些数据可以发现,较低的序列长度高达96%的加速比方法的提出平行斜测序系统。即使不同的序列长度提出系统的加速性能比现有高通用并行测序。
图像
图15:加快比率分析平行Vs对角线平行
图像
图16:加快比率分析
动态和不同加速分析已经完成在图16可以发现该系统总是遵循更好的初始化和继续加速甚至更高的序列长度。这是可能的因为它的小说DP并行编程和数据处理。
图像
图17:数量的计算
图17显示了数量的比较分析串行计算和查询序列长度的平行并提出对角线平行测序或处理方案。这里可以可视化,提出了系统,有计算的最低需要较高的序列长度。相比其他传统方法,提出了系统低得多的计算处理,从而它意味着更高的计算效率。
图像
图18:数量的计算差异
图18显示了减少计算成本为基础的并行块测序并提出对角测序方法。从这图可以发现,该系统有效地降低了计算成本的因素超过75%,相比现有的并行块基础处理方案。

结论和未来的工作

有重要意义的并行计算和并行编程范式在提高计算效率的各种复杂的系统,如基因组测序,批量数据处理和基因定位的应用程序。本研究工作已经从一个目标发展动机高度健壮的和优化的动态并行编程方法,可以想出最有效的计算方法对生物基因测序。考虑动态规划方法的鲁棒性在这个工作,作者提出了一种优化方案史密斯沃特曼(SW)算法富含迈尔斯和米勒技术,提出不仅高效计算方法,而且面向时间和空间优化的系统模型。在本研究工作中,作者开发了一个对角线平行的序列比对方法与Intra-task并行化内核。这里作者强调其通用的软件算法的优化研究通过加强跟踪支持效率、最优估计,正向和反向测序的方法,对角基因测序与平行对齐和增强两两序列比对。迈尔斯和磨坊主方法的考虑了系统有效的通过利用共享内存空间,因此相关的动态编程查找表使系统功能没有实施多re-computation成本。
在这部作品中,占主导地位的因素,优化了其最佳可能性是史密斯沃特曼算法函数在一个独特的对角线平行排列,而在传统的串行或并行测序方法。对角线平行测序使得系统的开发效率估算距离矩阵和查询与邻居匹配矩阵,降低整体计算计数,因此整体的计算成本得到降低。同样的,相反的传统串行和并行测序方面的建议的方法表现更好的查询执行时间;加速比,计算数量,降低计算成本等的检索分析比较的结果提出系统与传统的串行和并行块排序方法,它已经发现,该系统执行更好的加速比的方法长96%不管数量的查询序列长度。三种排序方法中提出的系统采用可变长度的微不足道的执行查询的时间跨度。甚至串行和并行方法导致增加每增加查询在查询执行时间长度,但相反,拟议中的对角线平行范例说明了不变的和微不足道的执行时间。考虑计算的数量和计算成本,它已经发现,该系统减少了re-computation数在很大程度上与并行和串行计划。连续块基于测序方法增加入侵的计算成本开销的re-computation执行某些查询长度和最严重的是传统的方法计算成本增加按查询长度增加,这可能是最不受欢迎的因素在基因测序的情况下这是一个更长的序列问题。
考虑整体性能矩阵和时间以及空间的计算优化的需要,它可以表示,拟议中的对角线平行测序方法表现更好的比其他串行和通用的并行排序模式。发达系统建立本身作为一个潜在的候选人被用于生物基因测序和并行编程的应用程序需求。因此,拟议的研究工作来完成其最终目标,成功。虽然建议的方法说明更好比其他现有的系统,但是它的实现与多核处理器和某些优化的并行处理算法可能会带来某些新的希望进一步增强。

引用

  1. f . Guinand”并行计算分子生物学,”2000年地峡会议研究和发展的信息社会,波兹南,波兰,2000年。

  2. l D主席”,结合生物信息学算法课程,“第八届年会论文集在创新和技术在计算机科学教育中,35(3)卷,2003年,页211 {214。

  3. h·b·j·尼古拉斯·d·w·d·二世和a·j·Ropelewski。(1998年修订)序列分析教程:教程搜索序列数据库和序列评分方法。(在线)。可用:http://www.nrbsc.org/old/education/tutorials/序列/ db / index . html

  4. x黄,第三章:Bio-Sequence比较和对齐,爵士。当前计算分子生物学的主题。剑桥,麻州:麻省理工学院出版社,2002年。

  5. 裁缝和c . Wunch”,一般方法适用于寻找相似的两种蛋白质的氨基酸序列,“分子生物学杂志》上的48卷,没有。3、443{453年,1970页。

  6. t·f·史密斯和m . s .沃特曼”序列的共同分子的识别,“分子生物学杂志》147卷,没有。1,pp.195 {197, 1981。

  7. o .后藤”匹配的生物序列的改进算法,分子生物学学报,162卷,没有。3、705 - 708年,1982页。

  8. 黄x和w·米勒,“省时间线性空间局部相似性算法,”Adv.Appl.Math。,12卷,不。3、337{357年,1991页。

  9. m . Camerson和h·威廉姆斯。,”Comparing compressed sequences for faster nucleotide blast searches," IEEE/ACM Transactions on

  10. 计算生物学和生物信息学,4卷,没有。3、349{364年,2007页。

  11. j·d·弗雷”的使用均为旋律歌曲识别算法。”米aster's Thesis, Kent State University, 2008.

  12. j·波特,j·w·贝克,s . Scott a .邦萨尔c . Leangsuksun和c . Asthagiri“Asc:一个associative-computing范式,”电脑,27卷,没有。11日19日{25,1994页。

  13. m·j·奎因,并行计算:理论与实践,第二版》。纽约:麦格劳-希尔,1994年。

  14. j·贝克。(2004)Simd和德文:课程笔记从cs 6/73301:并行和分布式计算——幻灯片幻灯片。(在线)。可用:http://www.cs.kent.edu/wchantam/PDC Fall04 / SIMD MASC.ppt

  15. 史密斯T,沃特曼M:识别常见的分子子序列。J杂志1981 147:195 - 197。

  16. 后藤O:生物序列匹配的改进算法。J杂志1982 162:707 - 708。

  17. 汤普森JD,希金斯DG,吉布森TJ: CLUSTALW:改善进步的敏感性,通过序列加权多重序列比对,position-specific处罚和重量差距矩阵的选择。1994年核酸Res 22:4673 - 4680。

  18. 刘Y,施密特B, Maskell DL: MSA-CUDA:多重序列比对与CUDA图形处理单元。20 IEEE国际会议上特定于应用程序的系统体系结构和处理器;2009:121 - 128。

  19. 李H,杜宾R:快速和准确的短阅读与洞穴惠勒变换。2009年生物信息学,25 (14):1755 - 1760。

  20. 刘Y,施密特B, Maskell DL:南瓜:CUDA兼容短读准仪大基因组基于burrows - wheeler变换。2012年生物信息学,28 (14):1830 - 1837。

  21. 皮尔森WR, Lipman DJ:提高生物序列比较工具。Proc, Nat。学会科学。美国1988年,85 (8):2444 - 2448。

  22. 迈尔斯Altschul科幻小说,《W,米勒W,电子战,Lipman DJ:基本局部比对搜索工具。1990年杂志,215 (3):403 - 410。

  23. 张Altschul科幻,马登TL,谢弗AA, J,张Z,米勒W, Lipman DJ:缺口爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序。核酸Res 1997,25 (17): 3389 - 3402。

  24. R.S.哈里斯,“改善两两对齐的基因组DNA,”博士论文,宾夕法尼亚州立大学,2007。

  25. 库尔茨,a . Phillippy A.L. Delcher, m·斯穆特·m·沙姆韦c .安东内斯库和S.L.扎尔茨贝格,“通用的、开放的软件比较大的基因组,“基因组生物学、5卷,没有。2,p。R12, 2004。

  26. 美国Aluru: Futamura, k . Mehrotra“并行使用前缀计算生物序列比较,”j .并行分布式计算,63卷,没有。3、264 - 272年,2003页。

  27. 密特里奇对人们没有太多的兴趣和s . Aluru“空间和时间最优并行序列比对,IEEE反式。并行分布式系统,15卷,没有。12日,第1081 - 1070页,2004年12月。

  28. R.B.巴蒂斯塔,A . Boukerche A.C.M.A. de Melo”生物序列比对的并行策略限制内存空间,”j .并行分布式计算,68卷,没有。4、548 - 561年,2008页。

  29. c .陈和施密特”计算大规模比对多集群,“Proc, IEEE国际会议。集群计算,3845年,2003页。

  30. 张平、g . Tan和广义相对论高,“实现SmithWaterman算法的可重构超级计算平台,“Proc。第一次国际研讨会上高性能的可重构计算技术及应用:结合SC07举行(HPRCTA ' 07),页39-48,2007。

  31. x Liu l .徐张平:太阳,和江x”均为算法的可重构加速,IEEE反式。电路与系统、卷。54岁。12日,第1081 - 1077页,2007年12月。

  32. a . Boukerche J.M. Correa A.C.M.A. de Melo r。雅可比,并自动跟踪罗查,“生物序列比较在可重构体系结构减少了内存空间,“Proc, IEEE国际并行计算和分布式处理计算机协会。(IPDPS), 1 - 8, 2007页。

  33. c·陈和施密特”,一种自适应网格的实现DNA序列比对,“未来一代计算机系统,21卷,没有。7,988 - 1003年,2005页。

  34. f·桑切斯,f . Cabarcas a拉米雷斯,m·瓦莱罗能源“长DNA序列比较多核架构,”Proc。16日如Euro-Par相依并行处理(Euro-Par), 247 - 259年,2010页。

  35. a . Sarje和s . Aluru“平行在细胞基因组比对宽带引擎,“IEEE反式。并行分布式,20卷,不。11日,页。1600 - 1610年,2009年11月。

  36. Driga, a;陆,p;乔纳森·斯;Szafron d;宪章,k;帕森斯,我。,"FastLSA: a fast, linear-space, parallel and sequential algorithm for sequence alignment," Parallel Processing, International Conference on 9-9 Oct. 2003, pp.48-57.

  37. 奥利弗,T.F.;施密特,b;Maskell, D.L.,"Reconfigurable architectures for bio-sequence database scanning on FPGAs," Circuits and Systems II: Express Briefs, IEEE Transactions on Dec. 2005, vol.52, no.12, pp.851-855.

  38. Hsien-Yu廖;Meng-Lai阴;程,Y。,"A parallel implementation of the Smith-Waterman algorithm for massive sequences searching," Engineering in Medicine and Biology Society,26th Annual International Conference of the IEEE , vol.2, pp.2817,2820, 1-5 Sept. 2004

  39. Arpit g;Adiga r;Varghese, K。,"Space Efficient Diagonal Linear Space Sequence Alignment," BioInformatics and BioEngineering (BIBE), 2010 IEEE International Conference on , vol., no., pp.244,249, May 31 2010-June 3 2010

  40. Jha,美国;克鲁格,l;Shmatikov, V。,"Towards Practical Privacy for Genomic Computation," Security and Privacy, 2008. SP 2008. IEEE Symposium on 18-22 May 2008, pp.216,230,

  41. Gardner-Stephen p;诺尔斯,G。,"DASH: localizing dynamic programming for order of magnitude faster, accurate sequence alignment," Computational Systems Bioinformatics Conference, IEEE on 16-19 Aug. pp.732-735.

  42. 这个地方,点;吴尊冯”,优化性能、成本和敏感性成对序列搜索集群上游戏机,”生物信息学和生物工程第八届IEEE国际会议在2008年10月8 - 10日,pp.1-6。

  43. Popescu, M。,"An ontological fuzzy Smith-Waterman with applications to patient retrieval in Electronic Medical Records," Fuzzy Systems (FUZZ), IEEE International Conference on 18-23 July 2010, pp.1-6.

  44. 拉希德,N.A.A.;阿卜杜拉,r;塔利班成员,A.Z.H.;阿里,Z。,"Fast Dynamic Programming Based Sequence Alignment Algorithm," Distributed Frameworks for Multimedia Applications, 2006. The 2nd International Conference on , vol., no., pp.1,7, May 2006

  45. 长今香港;特菲克,A.H.,"Heuristic Reusable Dynamic Programming: Efficient Updates of Local Sequence Alignment," Computational Biology and Bioinformatics, IEEE/ACM Transactions on Oct.-Dec. 2009, vol.6, no.4, pp.570-582.

  46. 亚斯兰蒋振声;“多序列比对包含正则表达式的一个序列”;2005年生物信息学和计算生物学、计算智能。《IEEE研讨会。2005年11月14日至15日,pp.1-7。

  47. Pulka, a;Milik,。,"A new hardware algorithm for searching genome patterns," Signals and Electronic Systems, 2008.; International Conference on 14-17 Sept. 2008, pp.181-184.

  48. 石艺沈;王亏;帮派胡锦涛;Shu-Tao夏;“对齐空间及其应用信息理论研讨会在2006年10月22日至26日,卷,不。,变革- 169。

  49. 沃斯,g;Muller-Wittig w;施密特,B。,"Using Graphics Hardware to Accelerate Biological Sequence Database Scanning," TENCON 2005 2005 IEEE Region 10 , vol., no., pp.1,6, 21-24 Nov. 2005

  50. 哈里斯,b;雅各、交流;兰开斯特,J.M.;j·布勒公司;张伯伦,进食,"A Banded Smith-Waterman FPGA Accelerator for Mercury BLASTP," Field Programmable Logic and Applications, International Conference on 27-29 Aug. 2007, pp.765-769.

  51. 诺尔斯,g;Gardner-Stephen P;“一个新的硬件架构基因组和蛋白质组序列比对,“计算系统生物信息学大会,2004年。CSB 2004。诉讼。2004年IEEE,卷,没有。2004年8月,pp.730,731 16 - 19

  52. 上海市刘;施密特,b;沃斯,g;施罗德,a;Muller-Wittig, W。,"Bio-sequence database scanning on a GPU," Parallel and Distributed Processing Symposium on 25-29 April 2006, pp.8

  53. 艾尔彭b;卡特,l;康苏-加特林,“Micro-parallelism和高性能蛋白质匹配”;超级计算机学报IEEE / ACM SC95;pp.24-24。

  54. 郑,方;徐,Xianbin;杨,远华;他,Shuibing;张,是的,“生物序列比对算法与CUDA GPU加速,“计算与信息科学(ICCIS)国际研讨会会议2011年10月,pp.18-21。

  55. Das,美国;戴伊,D。,"A new algorithm for local alignment in DNA sequencing"; India Annual Conference; Proceedings of the IEEE INDICON on 20-22 Dec. 2004; pp.410-413.

  56. Junid S.A.M.;Majid, Z.A.;哈利姆,A.K.,"Development of DNA sequencing accelerator based on Smith Waterman algorithm with heuristic divide and conquer technique for FPGA implementation," Computer and Communication Engineering; International Conference on on 13-15 May 2008; pp.994-996.

  57. Boukerche, a;科雷亚,J.M.;德梅洛A.C.M.A.;雅可比,r;罗查,自动跟踪,"Reconfigurable Architecture for Biological Sequence Comparison in Reduced Memory Space," Parallel and Distributed Processing Symposium, IPDPS 2007; IEEE International on 26-30 March 2007; pp.1-8.

  58. 德尔珈朵,g;Aporntewan c;“数据依赖性减少动态规划矩阵”,计算机科学和软件工程(JCSSE)第八国际联合会议2011年5月11 - 13日;pp.234 - 236。

  59. 里德尔,D.E.;马纳尔、美国;万全,刘”,均为局部比对的方法用于空间活动识别”;视频和基于信号的监测、AVSS 06年;在2006年11月IEEE国际会议;pp.54-54。

  60. 足总张;Xiang-Zhen俏;刘Zhi-Yong;“并行算法均基于分治”算法和体系结构并行处理程序。第五次国际会议年会于2002年10月23 - 25日;pp.162 - 169。

  61. Sebastiao:;迪亚斯,t;罗马:;弗洛雷斯,P。,"Integrated accelerator architecture for DNA sequences alignment with enhanced traceback phase," High Performance Computing and Simulation (HPCS), 2010 International Conference on June 28 2010-July 2 2010; pp.16-23.

  62. 埃j .;j·科因;林奇,w;Natoli诉;Grecco, j .;Morrissette, J。,"Smith-Waterman implementation on a FSB-FPGA module using the Intel Accelerator Abstraction Layer," Parallel & Distributed Processing IPDPS in IEEE International Symposium on 23-29 May 2009; pp.1-4.

  63. 哈桑,l;Al-Ars, Z。,"An efficient and high performance linear recursive variable expansion implementation of the smith-waterman algorithm," Engineering in Medicine and Biology Society, Annual International Conference of the IEEE3-6 Sept. 2009; pp.3845-3848.

  64. Razmyslovich d;马库斯,g;Gipp m;Zapatka m;Szillus,。,"Implementation of Smith-Waterman Algorithm in OpenCL for GPUs," Parallel and Distributed Methods in Verification, 2010 Ninth International Workshop on, and High Performance Computational Systems Biology, Second International Workshop on Sept. 30 2010-Oct. 1 2010; pp.48-56.

  65. 程凌;Benkrid k;岩漠、T;“可参数化和可伸缩的均为算法实现CUDA-compatible GPU”;应用程序特定的处理器IEEE 2009年7月27 - 28日7日研讨会;pp.94 - 100。

  66. Steinfadt, S.I.,"SWAMP+: Enhanced Smith-Waterman Search for Parallel Models," Parallel Processing Workshops (ICPPW), 2012 41st International Conference on 10-13 Sept. 2012; pp.62-70.

  67. Nordin m;拉赫曼。,"Utilizing MPJ Express Software in Parallel DNA Sequence Alignment," Future Computer and Communication, ICFCC 2009. International Conference on 3-5 April 2009; pp.567-571.

  68. 张倩;香港一个;顾刘;文婷汉;山西平遥;亩许;小强,“并行均为序列比对的优化使用片上内存GPGPU的“仿生计算:理论和应用程序(BIC-TA), 2010年IEEE第五国际会议2010年9月23 - 26日;pp.844 - 850。

  69. •刘(george w . bush);施密特;g·沃斯;答:施罗德;w . Muller-Wittig;”“Bio-Sequence数据库扫描在GPU Proc。20国际相依并行计算和分布式处理(IPDPS), 2006年。

  70. 阿里Khajeh-Saeed;斯蒂芬·普尔;j·布莱尔佩罗;“加速度均为算法使用单个和多个图形处理器”;计算物理学报,229 (2010)4247 - 4258。

  71. Sarje和美国Aluru平行在细胞基因组比对宽带引擎,”IEEE反式。并行分布式,20卷,不。11日,页。1600 - 1610年,2009年11月。

  72. [71]y . Liu w·黄,j·约翰逊和s . Vaidya”均为GPU加速,“Proc。第六如相依计算科学(可以),3994卷,第195 - 188页,2006年。

  73. Sheng-Ta李;Chun-Yuan林;格瓦拉Lun挂;“基于gpu的云服务使用频率均为算法距离过滤计划”;生物医学研究国际卷2013(2013),文章ID 721738、8页。

  74. Sean o .解决;“高性能fpga与OpenCL动态规划”;IEEE 2013。

  75. 大卫Uliana;Krzysztof Kepa;彼得Athanas;“fpga HPC应用程序设计为非专家”;2013年IEEE国际会议24日在特定于应用程序的系统中,6月05-June 07架构和处理器。

  76. Cehn c;施密特,B。,"Computing large-scale alignments on a multi-cluster," Cluster Computing; Proceedings. 2003 IEEE International Conference on 1-4 Dec. 2003, pp.38-45.

  77. 巴蒂斯塔,R.B.;Magalhaes阿尔维斯德梅洛,Alba克里斯蒂娜Z-align:一个精确的和并行策略对当地生物序列比对User-Restricted内存空间,“集群计算,2006年IEEE国际会议25 - 28 2006年9月,pp.1-10。

  78. 密特里奇对人们没有太多的兴趣,美国;Aluru, S。,"Space and time optimal parallel sequence alignments," Parallel and Distributed Systems, IEEE Transactions on Dec. 2004, vol.15, no.12, pp.1070-1081.

  79. 迈克尔·s·法勒;“优化均为单元格的宽带引擎。伽柏伊万;丹尼尔银行;文斯Grolmusz;“快速和准确的序列比对算法均为:swissAlighn网络服务器”;2013年9月7日。

  80. Yoshiki山口;挂Kuen Tsoi;韦恩陆;”fpga均为算法:分析和新颖的设计”;进行电弧的11学报》第七届国际会议上可重构计算:架构,工具和应用程序;181 - 192年,2011页。

  81. Surendar;M阿伦;C Bagavathi;基于可重构算法的“进化生物信息学应用程序:一个调查”;国际期刊的生命科学、生物技术和医药研究;2卷,2013年10月4号。

  82. 道格·海恩;扎克Cashero;马克Ottenberg; Wim玻姆;桑杰Rajopadhye;“改善CUDASW + +,并行化的均为CUDA设备启用。

  83. 迈克尔·克里斯多夫·沙茨;“高性能计算DNA序列比对和组装”;在2010年论文马里兰大学。

  84. 塔拉尔漂亮的;m . Affan·阿里·齐达内;哈立德·n·Salama;“一种自适应混合生物信息学序列比对的多处理器技术”。Ligowski l;Rudnicki w;“史密斯沃特曼算法的高效实现使用CUDA GPU,大规模并行扫描序列数据库,“并行和分布式处理,2009;IEEE国际研讨会23-29 2009年5月,pp.1-8。

  85. 穆罕默德Nazrin Md Isa,“高性能生物序列比对可重构体系结构”;论文;爱丁堡大学,2013年3月。

  86. 布莱恩挂;杨围;“一个序列均为比较算法的并行实现”;2002年12月6日。

  87. Jay Shendure;Hanlee记;“下一代DNA测序”;自然生物技术体积26 10号;2008年10月。

  88. 孟Xiandong;乔杜里,V。,"Exploiting Multi-level Parallelism for Homology Search using General Purpose Processors," Parallel and Distributed Systems, 2005. Proceedings. 11th International Conference on 22-22 July 2005; vol.2, pp.331,335,

  89. Zhihui Du;件阴;巴德,D.A.,"A tile-based parallel Viterbi algorithm for biological sequence alignment on GPU with CUDA," Parallel & Distributed Processing, Workshops and Phd Forum (IPDPSW), 2010 IEEE International Symposium on 19-23 April 2010; pp.1-8.

  90. Shucai肖;这个地方,点;吴尊,“动态编程的健壮的映射到图形处理单元,“并行计算和分布式系统(ICPADS), 2009年15国际会议2009年12月8日至11日之间;pp.26-33。

  91. 纳瓦兹,z;Al-Ars z;Bertels k;Shabbir, M。,"Acceleration of Smith-Waterman using Recursive Variable Expansion," Digital System Design Architectures, Methods and Tools, 11th EUROMICRO Conference on 3-5 Sept. 2008, pp.915-922.

  92. 萨迪,硕士;萨米,A.Z.M.;艾哈迈德,国际单位;Ruhunnabi, a;Das, N。,"Bioinformatics: Implementation of a proposed upgraded Smith-Waterman algorithm for local alignment," Computational Intelligence in Bioinformatics and Computational Biology, IEEE Symposium on March 30 2009-April 2 2009; pp.87-91.

  93. Khairudin:;Mahmod:;哈利姆,又名;Junid, s M A;Idros, M F M;哈桑,s L M;Majid, Z.A.,"Design and Analysis of High Performance Matrix Filling for DNA Sequence Alignment Accelerator Using ASIC Design Flow," Computer Modeling and Simulation (EMS),Fourth UKSim European Symposium on 17-19 Nov. 2010; pp.108-114.

  94. Gardner-Stephen p;诺尔斯,G。,"DASH: localising dynamic programming for order of magnitude faster, accurate sequence alignment," Computational Systems Bioinformatics Conference Proceeding IEEE on 16-19 Aug. 2004; pp.732-735.

  95. 弗林和劳里J。2个新的微处理器:英特尔停止发展。《纽约时报》,2004年版。

  96. 摩尔定律将另一个十年,http://news.cnet.com/2100 1001984051. - html。检索2012-2-10。

  97. Amdahl通用:单处理器的有效性方法实现大规模计算能力。春天AFIPS联合电脑研讨会论文集,新泽西州大西洋城,AFIPS出版社,pp.483 - 85。

  98. 后藤O。生物序列:一种改进的匹配算法。分子生物学1982,162 (3):705 - 708

  99. 科学博士Hirschberg”,一个线性空间算法计算最大公共子序列,“通讯。ACM, 18卷,没有。6,341 - 343年,1975页。

  100. o .后藤“生物序列匹配的改进算法,”j .分子生物学,162卷,没有。3,第708 - 705页,1982年12月。

  101. 斋藤m和Nei N。:neighbor-joining方法:重建系统发育树的新方法。摩尔。杂志。1987年另一个星球,4:406 - 425。

全球技术峰会