查询结果的有效优化使用中间件层基于概念层次结构的生物医学数据库

Madduri Venkateswarlu¹和诉斯²

学生,M。技术(CSE), Anadapuram Al-Ameer工程与技术学院威扎吉,一个。P、印度
Asst.Professor (CSE)、Anadapuram Al-Ameer工程与技术学院威扎吉,一个。P、印度

通讯作者:Madduri Venkateswarlu,电子邮件:maddurivenkateswarlu169@gmail.com

文摘

地中海等生物医学数据库,搜索查询酒吧,经常返回大量结果,只有一小部分与用户相关。排名和分类,也可以结合,提出了缓解信息过载问题。优化结果和结果categorizationfor生物医学数据库是这项工作的重点。一个自然的方式来组织生物医学引用是根据他们的网注释。网格是一个综合概念层次结构由地中海酒吧使用。本文提出的BioIntelR(出生)系统,采用BioNav系统允许用户浏览大量的查询结果,组织他们使用网格概念层次结构。首先,BioIntelR(出生)系统提示用户输入搜索条件,系统自动连接到一个中间层在应用程序级别,指导创建查询正确的有效的查询路径选择正确的标准从生物医学数据库的搜索结果。查询结果被组织成导航树中。在每个节点展开步骤,BIR系统只显示一个小的子集概念节点,选择这样预期的用户导航成本最小化。相比之下,以前的系统,BIR系统优于和优化查询结果的时间和减少了查询结果集,以方便用户导航、数据仓库。

关键字

交互式数据探索和发现、搜索过程中,图形用户界面交互方式。

介绍

过去十年,前所未有的增长在生物医学数据的生产和出版文学讨论。的MEDLINE数据库[1],酒吧地中海[2、3]搜索引擎运作,包含超过1800万个引用,目前每年增长的速度500000新的引文[4]。其他生物来源,如主菜基因[5]和人类[6],见证类似的增长。生物学家、化学家、医疗卫生科学家用于搜索域literature-such酒吧Med-using关键词搜索界面。目前,在一个探索性的场景中,用户试图找到引用有关她的研究,因此不知道先验的,最初她提交一个宽泛的关键字查询,通常返回大量结果。随后,用户迭代改进查询,如果她的想法如何,通过添加更多的关键字,并重新提交,直到一个相对较小的返回的结果数。这个改进的过程是有问题的,因为经过的迭代次数,用户不知道如果她有超过指定的查询,在这种情况下,相关的引用可能被排除在最终的查询结果。作为一个例子[7]。

BIR系统发达方便使用网格概念的关键词搜索深不可测的层次结构。提出系统接受用户搜索条件和指定有效的查询路径通过中间层构造(图2所示)

生物医学数据库上运行应用程序级别之前,通过融合BioNav方法得到有意义的结果导致进一步的数据分析。

关键字搜索查询这些数据库返回大型结果集上只有一小部分是相关的用户。提出了许多解决方案来解决这个问题——通常被称为信息过载(8、9)。这些方法可以大致分为两类:排名和分类,也可以结合。

BioNav主要属于分类类,这是适合这个领域的丰富概念层次结构用于生物医学数据,如网[10]。每个引用在MEDLINE与几个网格概念在两个方面:(i)被明确标注,和(2)提及他们的文本。因为这些协会由地中海酒吧,提供一个相对简单的界面导航查询结果首先把引用相应的网格节点概念,然后让用户导航层次结构的概念。

图1显示一个快照这样的一个界面,显示每个节点旁边的标签是不同的引用计数的子树的节点。在这个例子中,我们假设用户查询MEDLINE的核蛋白质一个¢prothymosinA¢和他的个人利益反映在两个表示概念,对应于两个独立的行prothymosin相关研究。典型导航首先揭示了儿童根排名的引用计数,并继续扩大的一个或多个,揭示他们的排名孩子等等。此外,用户可以点击阿,检查连接引用。使用类似的接口和导航方法去酒吧地中海[11]和电子商务网站,如亚马逊和eBay。

上面的静态导航方法为每个查询结果−−同样是有问题的,当网格层次结构(或一个具有类似属性)是用于分类有以下原因:

。的巨大规模网格层次结构(与48441年概念节点)使它具有挑战性的用户有效地导航到所需的概念和浏览相关的引用。b。介绍了大量的重复引用导航树的图1中,自313年每一个不同的引用与几个相关的概念。具体来说,图1中引用的总数是40195。

BioNav,首次提出在[12],介绍了动态导航方法,取决于特定的查询结果。查询结果附在相应的网格节点概念如图1所示,然后导航收益不同。关键节点的接口是扩张行动,选择性地揭示了后代的排名列表(不一定是孩子)的概念,而不是简单地显示所有的孩子。

图2显示了生物的状态Navinterface后查询一个¢prothymosinA¢。MeSHtree的根可以看到左边的窗格。右窗格中显示了结果破当前节点的左窗格的导航树。用户也可以查看更多信息子树扎根在给定概念节点通过点击旁边的图标出现的每个概念标签。弹出窗口如图2所示的表显示当前子树的不同特点,包括313年的引文查询结果分布在3940概念节点。

本文的组织结构如下:第二部分描述了相关工作,第三部分描述该系统架构工作性质,第四部分介绍了进化实验。第五部分提出结论和未来的范围。

相关工作

多个系统已经开发出来,以促进关键字搜索酒吧地中海使用网格概念层次结构。地中海酒吧本身允许用户搜索基于网格注释的引用。关键字查询一个¢他的音调(网格计算)¢将检索所有引文注释与网格项¢他tonesA¢AMeSHhierarchy。网的用户也能限制她的搜索词通过使用额外的过滤器,例如,一个¢[majr]一个¢过滤掉所有引文查询结果中没有项作为他们的主要项。这些过滤器可以组合使用逻辑连接词,或者,而不是。这个接口提出了重大挑战,甚至有经验的用户,由于注释过程是手动,因此容易出错。最接近BioNav地中海去酒吧[13],[14],它实现一个静态导航方法的结果酒吧地中海。去酒吧地中海高层MeSHconcepts列表的预定义列表,如¢化学品和药物,一个¢¢生物科学,一个¢等等,和每个人都显示了十大概念。节点展开后,孩子们发现和排名的数量他们附加的引用,而BioNav揭示选择性和动态的后代(并不总是儿童)节点列表排名估计相关用户的查询。此外,BioNav使用成本模型来决定哪些概念显示每一步。

BioNav主要属于分类类,特别适合这个领域的丰富概念层次结构(例如,网[15])可用于生物医学数据。我们增加我们的分类技术与简单的排序技术。BioNavorganizes查询结果为一个动态层次结构,导航树。每个概念(节点)层次结构的一个描述性的标签。然后用户导航这棵树结构,自上而下的方式,探索利益而忽略其余节点的概念,用户并不知道相关的结果可用专门在这些nodes-she只是缩小结果感兴趣,用熟悉的概念层次,而不是检查所有结果上述静态[7]多长时间为每个查询当MeSHhierarchy result-navigation方法是有问题的(或一个具有类似属性)是用于分类为以下原因[7]。

BioNav引入了动态导航方法,取决于手头上的特定查询结果,显示在图3。查询结果附在相应的网格概念节点在图1,但随后导航收益不同。关键节点的接口是扩张行动,选择性地揭示了后代的排名列表(不一定是孩子)的概念,而不是简单地显示所有的孩子。例如,图3显示了初始扩张根节点的只有8个(强调)的后代在哪里显示98名儿童相比,图1所示。的概念是由他们的排名与用户查询和他们的数量显示取决于查询结果的特点。接下来,假设用户感兴趣的一个¢氨基酸……¢节点和判断,310年的附加引用仍然是一个巨大的数字,她将通过点击一个¢> > >一个¢超链接旁边的图3 b。用户检查6个概念,决定透露,她不感兴趣。因此,她扩大¢氨基酸……一个¢节点一次在图3 c,露出四个额外的概念。 Note that Ã¢ÂÂNucleoproteinsÃ¢ÂÂ is an example of a descendant node being revealed, since its parent node Ã¢ÂÂProteinsÃ¢ÂÂ is not revealed in Fig. 3c. In Fig. 3d, the user expands the Ã¢ÂÂNucleoproteinsÃ¢ÂÂ node and reveals Ã¢ÂÂHis tones,Ã¢ÂÂ one of the three key concepts for the query. In the last step of the interaction, the user clicks on the Ã¢ÂÂHistonesÃ¢ÂÂhyperlink and the 15 corresponding citations are displayed in a separate frame as shown in Fig. 4. To reach Ã¢ÂÂHis tonesÃ¢ÂÂ using the BioNav navigate Method, only 23 concepts are revealed, after four node expansions, compared to 152 concepts, also after four expansions, with the static navigation method of Fig. 1. For each expansion, the displayed descendant concepts are chosen in a way that the expected navigation cost is minimized, based on an intuitive navigation cost model. The cost modelestima tes the exploration probability for a node based on its selectivity, that is, the ratio of attached citations before and after the query.

导航成本概念节点也是成正比的密度导航子树扎根在这个节点的引用计数。

直观地说,选择做这样每个expansionreducesmaximally预期剩余导航成本。例如,之所以一个¢ProteinsA¢是不显示在图3中,是它太一般考虑到查询结果和引用的原始分布在PubMed数据库(细节部分3和4),因此显示它将导致预期增加用户导航成本,基于用户导航成本模型。除了静态层次导航mentione d以上,工作有工作的动态分类查询结果(例如,易怒的搜索引擎[16]或[17 - 18]),建立监督query-dependent结果集群,但不学习如何导航集群。BioNav截然不同,因为它提供了动态导航一个预定义的层次结构,是网格的概念层次结构。另一个区别是,BioNav usesa导航成本模型导航成本降到最低。我们做出以下贡献:

。一个全面的框架导航大型查询结果通过PubMed网,一个广泛的概念层次结构用于在MEDLINE索引引用

b。一个正式的成本模型测量导航成本curredby用户。

c。一个复杂的结果证明扩大树,减少用户的导航成本是一个NP -完全问题。

d。一个有效的启发式和一个可行的最优算法导航成本最小化。

e。实验结果验证的有效性BioNav系统相比,先进的分类系统。

f。在线版本的BioNav系统可在http://db.cse.buffalo.edu/bionav.Although我们专门针对生物医学领域工作;的方法可直接应用于数据集元组在哪里使用从概念层次分类。第一个贡献的核心在我们初步提出了简短的论文[19]。

网格的概念层次结构是一个标签的树[10],儿童概念节点的标签在哪里更具体的比其母公司之一。一旦用户问题的一个关键字查询PubMedBioNav使用主菜编程实用程序(小盒子)[20]。

它返回一个引用列表,每个与几个网格的概念。BioNavconstructs导航树通过附加到每个网格概念层次结构的概念节点的列表相关的引用和删除所有节点没有引用,同时保留ancestor-descendent关系。导航树T (V E r)的最大嵌入一个初始导航树TI (VI、EI、r),没有节点n∈V是用一个空的标记结果列表L (n),不包括根(为了保持森林的树结构,避免创建)。

框架和BIOINTELR概述

结构生物英特尔R系统:

的提出BIR系统包括组合:

一个Web界面。

b。中间层

c。导航系统,

在接收来自用户的关键字查询,BioIntelR发送查询和可视化查询结果;BioNav对MEDLINE数据库执行相同的查询和检索的id (PubMed标识符)查询中引用的结果。用户与系统的交互通过BioIntelR web浏览器找到从PubMed的有效搜索条件的结果。以前BioNav系统,一旦用户问题关键字查询,PubMed-BioNav使用主菜编程实用程序(eUtils)[21]返回一个引用列表,每个与几个网格的概念。BioNav构造一个初始导航树通过附加到每个网格概念层次结构的概念节点的列表相关的引用BioNav减少了初始导航树的大小通过移除节点与空的结果列表,同时保留祖先后代关系。网格概念层次结构是框架的起点和定义如下:概念层次结构,导航树,有效减少边缘,活跃树,活跃树可视化[7],BioNav用于设备的导航模型和评估算法[7]。

网络接口:

Web界面是用户界面与BioIntelRsystem交互,通过指定搜索条件通过指定searchkey可视化系统的优化结果。

中间层:

中间的作用是提供一个易于使用和理解界面对数据库用户搜索条件的最小的结果集,便于导航和它减少了搜索结果的时间。中间一层是一个文件主要由底层数据库,创建对象的模式文件包含数据库连接参数连接,中间一层地图数据库和验证路径的搜索关键字的搜索条件,层作为用户界面和数据库之间的桥梁。我们创建的模式必须与最终用户的商业环境和词汇。

导航系统:

用户问题的一个关键字查询后,BioNav启动导航通过构造初始活跃树(单个组件树扎根在网根)和显示它的根用户。随后,用户导航树通过执行下列操作之一在给定组件的子树的概念节点n:扩张,SHOWRESULTS,忽略,放弃这个导航过程将一直持续,直到用户找到她感兴趣的所有引用。

编程实用程序:

主菜编程实用程序(eUtils)[21]返回一个引用列表,每个与几个网格的概念。

数据基础:

MEDLINE数据库、视图的PubMed搜索引擎运作,包含1800万多个引用和一次增长的速度每年有500000新引用。首先填充BioNavdatabase网格层次结构,这是网上[15],有48000多个节点的概念。然后,BioNav填充数据库的关联的MEDLINE引文网的概念。

工作的性质提出系统:

提出系统的主要目的是从数百万引用搜索有效的结果,提出系统BioIntelR(出生)(包含中间层和任何生物医学搜索工具我们考虑BioNav系统)接受的用户搜索关键字和提示用户特定的过滤字段,系统接受用户请求,并选择有效的中间层的中间层将有效地处理请求。层作为用户界面和BioIntelR系统之间的桥梁。当用户查询数据库视图;中间层指定正确的路径运行在大型中央数据库。

该系统采用BioNav系统,一个指定的路径和BioNav系统,显示了BioNav系统架构Fig.由两部分组成。离线组件填充BioNav数据库网格的概念层次结构和关联的MEDLINE引文网的概念,而在线组件支持BioNav web用户界面和EXPAND-SHOWRESULTS操作的用户。

离线预处理:

首先填充MeSHhierarchy BioNav数据库,这是网上[15],有48000多个节点的概念。然后,BioNav填充数据库的关联的MEDLINE引文网的概念。这些协会并不直接提供的主菜编程实用程序(eUtils),所以我们必须实现以下方法来推断这些关联。对于每个网格层次结构中的概念,我们在PubMed查询使用这个概念作为关键字。对于每个引用ID查询结果中,我们添加到表BioNav数据库中的元组<概念;引用ID >。或者,我们可以确定协会通过使用网格的概念,每个MEDLINE数据库中的引文注释。这些信息可以通过eUtils。不过,在这种情况下的导航树BioNav不会是非常有益的,因为每个平均引文注释与20概念在MEDLINE,虽然PubMed索引将每一个引用与平均大约90的概念(包括来自MEDLINE的20)。MeSHhierarchy给定数量的概念,引用的数量在MEDLINE(_18百万)和PubMed eUtils限制查询的数量可以在一段时间内执行,历经近20天收集所有<概念; citation ID> tuples. In the end, there were almost 747 million such tuples. To improve the selection queries on this table, we renormalized it by concatenating all concepts associated with each citation into a comma-separated list that is : In this work, we assume the data set D to be fixed. However, in practice, D changes frequently as new citations are added and existing citations are updated to include new terms from the MeSH hierarchy.

在本例中,我们假设D定期刷新一个脱机过程,问题查询PubMed使用概念关键词检索和更新的概念数和行引用。新添加的引用可能不会立即出现在查询结果。

在线操作:

在接收来自用户的关键字查询,BioNav对MEDLINE数据库执行相同的查询和检索的id (PubMed标识符)查询中引用的结果。这是使用的研究工具的主菜编程实用程序(eUtils) [21]。EUtils是web接口的集合PubMedfor发出查询和下载结果与各种途径和各种格式的细节。接下来,导航treeis由检索网格与每个引用相关联的概念从BioNav数据库查询结果。这是可能的因为网格概念树标识符encodingtheir网格层次结构中的位置,也从BioNav检索数据库。这个过程是为每个用户进行一次查询。导航树是非常转化为积极的树(见第二节),通过导航子系统支持BioNav web界面上用户的行为。最初,导航子系统可视化web界面上的活跃的树,也就是说,它只是显示了它的根节点。随后,用户请求一个扩大行动根。然后,导航子系统执行Heuristic-Reduced选择算法在树上我或Þ根r,以及由此产生的活跃树可视化web界面。 When the user makes a SHOW RESULTS request, BioNav uses the Entrees Summary utility to download high-level information of the citations to be shown, such title and authors.

实验评价

我们评估的区别BioIntelR BioNavsystems平均导航成本和扩张的时间性能其他传统措施的质量,精度和召回等不适用我们的场景中,目标是最小化树导航成本和不我们表明BioIntelR方法进行分类,这是评估使用中间层和采用BioNav系统和BioNav Heuristic-Reduced选择算法,导致相对较小的一组导航成本对MEDLINE数据库的查询和导航网格层次结构。我们比较最优算法(Opt-Edge削减)Heuristic-Reduced选择和显示最优的启发式是一个很好的近似。这些实验被执行在降低导航树(_20nodes),由最初的为每个查询查询导航树,因为Opt-Edge削减昂贵对于大多数导航树。最后,表明Heuristic-Reduced选择的执行时间是足够小,便于互动时间使用导航。实验是Windows XP专业的机器上执行3 GHz CPU和2 GB的内存,运行Windows XP专业。所有算法都实现Java和Oracle 10 g作为数据库。

导航成本评估:

图6中,比较了整体导航BioIntelR成本仅在BioNav生化查询集。BioIntelR执行比BioNav所有查询。

结论和未来的工作

信息超载是一个普遍现象用户遇到的搜索PubMed等生物医学数据库。我们解决这个问题通过组织根据其关联查询结果网格概念层次结构的概念,提出一种动态导航方法生成的导航树。每个节点扩展的导航树中揭示了一个最小的节点,从它的后代中选择,选择节点,信息过载用户观察到最小化。我们正式声明底层框架和导航和成本模型用于评估我们的方法。我们证明的问题选择的节点集导航成本最小化是np完全的。

引用

K.S.N.V. Jyotsna井斜,k . RajiniKumari¢优化查询结果使用基于中间层的onConcept HierarchiesA¢,数据挖掘,IJCST, 3卷,问题1,pp.969 - 974, 2012。
Abijith卡Vagelis Hristidis, m . Petropoulous s Tavoulari一个¢BioNav:有效导航查询结果的生物医学DatabasesA¢,知识发现(KDD), CSE 705年,2008年数据库系统,高级的主题。
Abijith卡Vagelis Hristidis, m . Petropoulous s Tavoulari¢有效导航的查询结果的基础概念HierarchiesA¢,IEEE知识和数据工程,23卷,2011年。
d·林德伯格b·汉弗莱斯A·麦克雷一个¢统一医学语言SystemA¢,inMedicine方法信息,32卷,4号,第291 - 281页,1993年。
医学主题词(网)(2010),(在线):http: / / www.nlm.nih.gov网
境Aronson,正当米切尔J.G.黑暗,¢基因索引:描述和分析NLM的GeneRIFsA¢,Proc。AMIA安。计算机协会。,pp. 460-464.
IEEE知识和数据工程,23卷,2011年4月4号。
k . Chakrabarti乔杜里和S.W.黄:查询结果的自动分类。SIGMOD Conference2004: 755 - 766。
z陈和t .李:解决不同用户首选项inSQL-Query-Result导航。SIGMOD会议2007:641 - 652。
医学主题词(网).北京:/ / nlm.nih.gov /网/
反式的洞察力GmbH——PubMed去。http://gopubmed.org。
a·卡什诉Hristidis m . Petropoulos和s . Tavoulari: BioNav:有效的导航在生物医学数据库的查询结果。ICDE 2009(出现)。
l . Comtet¢先进的组合:有限和无限的艺术ExpansionsA¢,第177 - 176页,1974年重拨。
斯坦福大学(2008),一个¢钢丝PressA¢,可用(在线):http://highwire.stanford.edu/
d . Maglott j . Ostell K.D.电台t . Tatusova¢主菜基因:Gene-Centered信息NCBIA¢,核酸研究33卷,页D54-D58, 2005年1月。
Transinsight GmbH-GoPubMed,(在线):http://www.gopubmed.org/ 2008。
J.S. Agrawal,乔杜里,g . Das A . Gionis¢自动排名的数据库查询ResultsA¢,Proc,第二年生相依。创新数据系统研究,2003。
k . Chakrabarti s乔杜里S.W.黄,一个¢自动分类查询ResultsA¢,Proc。ACM SIGMOD, 755 - 766年,2004页。
m .柿子一个¢Findex:搜索结果分类帮助文档排名FailsA¢,Proc。ACM SIGCHI相依之人为因素在计算系统中,131 - 140年,2005页。
主菜的http://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help编程实用程序和应用程序。
d . Demner-Fushman j . Lin¢答案提取、语义聚类,临床问题和采掘总结AnsweringA¢,Proc。如您参看,计算语言学和安。协会的会议。计算语言学,841 - 848年,2006页。