基于自学习的最优资源配置映射降低任务的评估成本函数

Nithya。米,Damodharan.P

M。E CSE称,Akshaya工程与技术学院,印度哥印拜陀
副教授,CSE称,Akshaya工程与技术学院。印度哥印拜陀

文摘

由于大规模改善数据的使用在现实世界中,就更加负担处理和有效地处理它。地图的减少是一个更发达的技术,用来处理大数据/最大的任务。减少用于分区任务映射到子分区和这些分区映射到机器进行处理。这个过程需要通过考虑成本最低化和会议的最后期限,提高用户满意度。在前面的工作,建设方法,关注分配地图减少任务的机器考虑降低成本和期限。然而这种方法并不专注于倾斜和流浪汉的问题可能发生在处理最大的任务。在我们的工作中,我们努力改善资源分配策略的性能通过考虑倾斜和掉队问题。这个问题的倾斜和流浪汉都是通过引入分区处理机制。分区机制将提高任务分配策略的失败。

关键字

云计算、Hadoop、地图减少,微分区,基于自我学习,TeraSort, WordCount, PageRank, TableJoin。

介绍

在云计算的发展,传感器网络、网格计算大量的数据集可以收集来自用户的应用程序和环境。例如,现在用户可以存储大量的数据集在一个数据中心,在那里我们去使用大数据。地图减少技术用于处理大数据。大数据是一组巨大的数据集,这是很难的过程使用现有数据库管理工具或传统数据处理应用程序。

另一方面,云分析师在大多数研究机构等机构,政府institiutions没有机会访问更多的私人Hadoop MapReduce云。亚马逊推出了基于需求弹性地图减少运行Hadoop集群。Apache Hadoop是开源软件的存储和处理大量的数据集在集群的硬件。要求在公共和私有云上运行Hadoop集群迅速变化。首先为每个任务集群可以从虚拟节点分配利用云模型“pay-as-youuse”经济。很难维持一个恒定的Hadoop集群私人Hadoop集群,因为数据处理请求通常在连续输入。

资源配置的优化可能涉及2因素。

配置虚拟机节点可以考虑货币成本和完成工作的时间成本的考虑。资源配置可以根据成本取决于所需的时间资源。复杂的使用期限等其他限制或货币那么预算减少的成本劝资源。我们提出一个方法来帮助用户决定公共云的运行MapReduce程序配置。这种方法,微分区用于分发工作负载的节点。

建设目标的方法

云资源配置(建设)MapReduce程序是基于时间成本模型。考虑时间成本模型和参数,提供用户可以解决优化问题。我们分析成本模型输入数据集而言,特定应用程序的复杂性和可用的资源系统。在这种方法中,我们考虑的结合白盒和机器学习方法。MapReduce程序有不同的时间和逻辑的复杂性。成本可能不同于应用程序到应用程序的函数。

分析地图减少任务

MapReduce是并行计算和分布式处理的结合。处理大量的数据,可以被定义为集群。减少执行阶段后地图的执行阶段。Map和Reduce的执行程序是通过使用Map / Reduce槽的概念和Map / Reduce任务。槽是单位用于运行的任务分配的资源是可用的。固定数量的插槽可以分配基于系统的能力。在hadoop中,由四个组件NameNode是hadoop文件系统的核心,DataNode来存储和检索的数据块,TaskTracker负责的地图名额的分配和减少槽,JobTracker负责客户的分配工作。

地图任务的计算成本

映射阶段包括三个阶段的地图,阅读和排序。首先我们考虑的计算成本的输入映射阶段。可能的形式输入数据块我(b),可以从本地或远程磁盘。第二个我们认为Map函数f (b)由用户给出。排序后的数据om (b)可以做,然后输出的形式将(键值)对可给reduce阶段。

降低成本的计算任务

减少阶段包括三个阶段的洗牌,归并排序,减少和WriteResult。也可以并行执行的执行,减少阶段。在减少的执行任务的数据量成正比的数量分配的密钥。的键映射阶段是减少平均分配任务。在洗牌阶段每减少任务将分配股份可以给出k / R和可以给出的数据量

归并排序阶段的数据,可以简单的合并,因为数据的排序在前面的阶段。归并排序可以作为它的成本是取决于bR (bR)女士。

学习模型

计算的成本函数,我们专注于输入变量的数量,M, M,βi R,然后参数。首先,我们随机样本的变量被认为是用于测试。第二收集map和reduce任务的时间和成本通过设置变量(M M, R)。m是nothimg但样本的数量。第三回归模型是适用于学习模型的转换变量等,

系统模型

微分区

微分区技术的关键是大量减少运行任务,把地图输出分成许多小单位的分区比减少机器为了产生较小的任务。这些小任务被分配到“即时”的方式减少机器的工人成为闲置,允许任务调度器动态减轻倾斜和掉队。有大量的任务,它可以更有效的排除缓慢节点而不是给他们指定任何工作。通过分配较小的单位工作,工作可以获得受益于较慢的节点。

这些任务被分配到减少机器工人成为闲置,允许任务调度器动态减轻倾斜和掉队。运行许多小任务减少掉队的影响,工作以来,一直在计划缓慢节点很小,现在可以由其他闲置人员。

输入包含几个不同的键,细粒度的划分可能导致许多空减少任务接收任何数据。这些空减少任务是不成问题的,因为他们可以很容易地发现和被调度程序忽略。工作很少有不同的分区键是最敏感倾斜,可能没有足够的其他工作以来掩盖的影响离散任务由一个关键碰撞散列分区功能。

数据集

我们使用四种类型的测试数据集测试样品。数据集可以随机选择1000字用作样本字典。另一个数据集是样品产生的PageRank计划,下一个数据集是Hadoop的包。

样品使用

WordCount:用来计算词的数量在给定的输入文件。

TeraSort:排序的数据做然后给还原剂。

网页级别:访问的网站的排名。

TableJoin: wordcount的加入,TeraSort就完成了。

微分区技术的实现如下:

步骤1:将输入样本

步骤2:在单词查找树中存储的输入样本

步骤3:构建两级单词查找树

第四步:计算每个前缀的发生

第五步:使用切割点算法来确定分割点

第六步:分割点

减少点=笔计数器/分区数量+ 1

第七步:使用切割点发送适当的还原剂的关键

如果(关键< cutpoint1)

减速机1发送关键

else if(关键> = cut-point1&&key < cut-point2)

发送关键reducer2

else if(关键> = cut-point2&&key < cut-point3)

发送关键reducer3

其他的

发送完成减速器

第八步:确定缓慢运行节点通过比较每个节点与其他的性能。

步骤9:如果有任何缓慢运行节点将数据移动到自由节点。

该方法

学习资源使用状态向量机状态

介绍了基于支持向量机的学习方法学习的资源clocated训练样本。所需的成本计算,可以减少学习的信息。在机器学习中,支持向量机的监督学习方法与学习算法,能够分析数据和识别模式为了做分类和回归分析。

机器学习的方法可以识别的教学关系。我们正在学习新规则在教学关系或DRs电子教科书在训练阶段。支持向量机,利用决策平面,定义了决策边界。决定飞机只不过是一组对象之间的分离在不同的类成员。支持向量机建模算法找到最优超平面最大利润的关注分离两类。这个外壳需要解决以下优化问题。

最大化,

在0≤αi≤我= 1,2,……。n,αi训练样本的重量x1, K是一个内核函数,用来测量两个样本之间的相似性。一个受欢迎的径向基函数(RBF)内核函数。这是“k”重复。

算法

输入:训练样本的数量(在现有系统)数据集w作为支持向量机分类的输入数据点

输出:分类结果

过程支持向量机(w) / /输入训练数据结果的支持向量机分类

开始

初始化值C = 0 / /最初的类标签应该是零

得到输入文件数据集w培训/ /输入数据集的结果为例进行培训的用户数据和预测结果的教学关系

阅读的数量输入训练数据集W从给定的原始数据集

预测结果(i = 1…n)的训练样本数量/ /分类后结果然后检查执行分类结果通过测试阶段检查以下功能

/ /显示结果最后我们显示分类的结果。

结果分析

图5.1比较时间的消费在建设方法与微分区机制。减少了时间消耗在微分区机制。图5.2显示了uage微分区大小的内存减少的机制相比,建设目标的方法。图5.3显示了成本降低微分区机制相比,建设目标的方法。

结论和未来的工作

答:结论

在这项工作中,我们研究了组件在MapReduce处理和建立一个明确的成本函数模型的数据量之间的关系,可用的系统资源,减少对目标函数映射的复杂性减少计划。模型参数可以从测试运行。基于这一成本模型,我们可以解决决策问题,可以减少货币成本考虑货币预算或工作完成时间。

为了提高分布式应用程序的负载平衡,微分区技术。通过改善负载平衡、MapReduce程序可以更有效地处理任务通过减少总的计算时间在每个节点上处理数据。除了我们使用MapReduce使用节点分类方法和分布工作负载节点根据节点的能力。之后微观分区方法是使用不同的输入样本用于应用程序。这种方法只是有效系统,高通量,低延迟任务调度器和有效数据实体化。

b .未来的工作

在未来,我们希望实现任务调度程序架构和计划执行额外的实验使用离散或异构节点测量性能。我们还计划研究微观任务的其他好处,包括使用微观任务作为替代时抢占调度混合物的批处理和对延迟敏感的工作。

引用

加拿大KS,金正日JW, Nagarkar P Nagendra M, Yu R (2010) RanKloud:可伸缩的多媒体数据处理服务器集群。IEEE MultiMed 18 (1): 64 - 77
Chang F,院长J,格玛沃特,谢长廷WC,瓦拉赫哒,Burrws M,钱德拉T,杞人忧天,格鲁伯再保险(2006)大表:结构化数据的分布式存储系统。:7日UENIX研讨会上操作系统的设计和实现,页205 - 218。
格玛沃特院长院长J S (2008) MapReduce:简化数据处理大型集群。Commun ACM 51:107 -
格玛沃特,Gobioff H, S - t梁(2003)Google文件系统。在19 ACM研讨会:操作系统原理(SOSP)。
江W, Agrawal G (2011) Ex-MATE与减少大型对象数据密集型计算及其应用图挖掘。集群:IEEE / ACM国际研讨会上,云计算和网格计算,页475 - 484。
金C, Vecchiola C, Buyya R (2008) MRPGA: MapReduce的并行遗传算法的扩展。:IEEE escience第四国际会议。
Kavulya年代,Tany J,甘地R,纳史木汗P(2010)的分析跟踪从生产集群MapReduce。集群:IEEE / ACM国际会议上,云计算和网格计算,页94 - 95。
克里希南(2005)GridBLAST: globus-based大规模爆炸在网格计算框架的实现。Concurr第一版17 (13):1607 - 1623。
许碳氢键,陈S-C(2012)有效选择策略对处理器重新排序技术在异构集群改善数据本地化。J超级计算机60 (3):284 - 300。