Hi:欢迎来到中国论文网     

所有论文科目分类


中国论文网 > 硕博论文 > 大数据流式计算框架的任务调度优化方法研究

大数据流式计算框架的任务调度优化方法研究

作者2019-03-27 10:55未知
随着物联网、电子商务、智能交通和虚拟现实等技术与产业的发展,全球数据开始呈现爆炸性增长的趋势,其中实时流式大数据成为了这些数据的关键组成部分。流式大数据具有实时性、易失性、突发性、无序性和无限性五大特征,无法使用传统的大数据批量计算框架进行分析。在这样的背景下,大数据流式计算框架应运而生,并迅速成为流式大数据处理的首选解决方案。这类框架虽然能够很好地解决流式大数据处理问题,但其默认轮询的任务调度机制并未考虑到不同工作节点的自身性能、负载差异、作业结构、通信开销和可伸缩性等各方面因素,无法最大化发挥集群的性能。针对这些问题,本文以主流大数据流式计算框架Apache Storm作为研究对象,提出了以下任务调度优化方法。(1)提出流式计算框架下关联任务感知的任务调度策略。Storm默认采用轮询的方式进行任务调度,未考虑到节点配置的相异性以及任务之间不同类型的通信方式。针对这一问题,在建立Storm基本模型、任务数量约束模型与最优数据流通信模型的基础上,提出一种Storm环境下关联任务感知的任务调度策略(ATA-Storm)。该策略首先按照拓扑的层次顺序依次获取到拓扑的各个组件,然后根据任务本地化原则,将Spout组件中的任务初始化部署到数据源所在工作节点;再在兼顾各工作节点剩余容量的基础上,将Bolt组件中的尽可能地任务部署到其上游任务所在节点,以在满足任务分配公平性的前提下最小化通信开销。实验中配置异构集群环境,并使用一个具有2种不同数据源的非线性拓扑展开对比实验,在调度结果、通信开销和延迟方面均表现良好。(2)提出流式计算框架下基于权重的任务调度算法。静态的任务调度策略无法获取任务的实时负载和数据流大小,不适合复杂的流组模式和多变的应用场景。针对这一问题,在建立带权拓扑模型、负载均衡模型与最优通信开销模型的基础上,提出一种Storm环境下基于权重的任务调度算法(TSAW-Storm)。该算法引入图划分的思想,首先根据各任务的实时CPU资源占用情况以及任务间的实时数据流大小,分别确定拓扑的点权和边权;随后利用最大化数据流增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡与任务本地化的前提下,尽可能地将边权较大的节点间数据流转化为节点内线程间数据流,从而降低网络传输开销。实验结果表明,在同构集群环境的WordCount基准测试中,所提算法相比Storm默认调度算法与在线调度算法在延迟、通信开销与负载均衡方面都有所改进,且算法的执行开销明显降低。(3)提出流式计算框架的任务迁移策略。已有流式计算框架下的动态调度策略大多需要在拓扑运行过程中进行任务的重新部署,不可避免地会对拓扑的正常运行造成停顿,执行开销较大。针对这一问题,在建立并论证资源约束模型与任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(TMSH-Storm)。该策略首先根据集群中各工作节点CPU、内存、网络带宽的负载情况以及各类资源的优先级顺序,将超出设定阈值的工作节点加入源节点集;随后综合迁移开销、通信开销、节点资源约束以及工作节点和任务负载等因素,依次从源节点集中选择合适的待迁移任务并将其异步迁移至目的节点。该研究还在理论层面上对比分析了任务局部迁移策略与任务全局重部署策略在执行过程与执行结果上的差距,证明任务迁移策略能够在较小的执行开销下获得较高的性能提升。最后在异构Storm集群下开展了4个基准测试的对比实验,结果表明,任务迁移策略能有效降低延迟和节点间通信开销,且执行开销较小,实现了任务平滑地轻量级调度。(4)提出基于任务迁移的流式计算弹性集群构建方法。当集群资源不足或过剩时,弹性集群的动态构建就显得尤为重要。而已有研究在进行弹性调整的过程中,均会对运行时作业造成一定的冲击。针对这一问题,引入任务迁移策略的思想,建立改进的资源约束模型与扩充的任务迁移模型,提出基于任务迁移的流式计算弹性集群构建方法。该方法借助于任务迁移的多米诺骨牌效应与任务迁移的集聚效应,能够在集群资源不足时,使用基于任务迁移的集群动态扩展算法(DCGA)自动增加工作节点数量,并从负载过重的节点中选择合适的任务迁移至该新增节点;当集群中某一节点资源过剩时,使用基于任务迁移的集群动态收缩算法(DCSA)自动将该节点上的任务迁移至其他工作节点并关闭该节点。实验结果表明,在异构集群环境的WordCount基准测试中,所提方法实现了流式计算集群的平滑伸缩机制,有效降低了延迟,提高了元组处理的可靠性。

最新更新

热门推荐

[硕士论文]MPACC硕士论文重复率要求是
MPACC硕士论文 重复率要求是多少及方法?每个学校对自己的论文重复率要求可能会有所不同,但是大致也不会超过哪个范围,本篇文章就为大家介绍一下MPACC硕士论文重复率要求是多少?大家可以大致的参考一下,具体情况还请参考自己学院的详细要求哦。 MPACC硕士论文重复率要求 一般而言,大部分院校针对硕士研究生研究生论文重复率都规定在20%以内,当然,也有部分院校规定...[全文]
[硕士论文]MPACC硕士论文答辩详细流程
论文答辩都有一套详细的流程要走,具体哪个步骤做什么,都会有详细的要求介绍,下面我们就为大家详细介绍一下MPACC硕士论文答辩的详细步骤,具体哪一步做什么,都给大家粗略的介绍一下。 一、 MPACC硕士论文 答辩的详细步骤 二、自我介绍想必关于自我介绍大家都知道, 而在论文答辩的过程中, 自我介绍的时候,需要举止大方、态度从容、面带微笑,礼貌得体的介绍自己...[全文]
[硕士论文]教育硕士毕业论文开题报
教育硕士研究生开题报告可能很容易忽视,可能内心想着就是那几个方面,不需要一直提,其实有很多细节你可能不知道,现在58 博学论文 网小编主要包括以下几个方面: (一)教育硕士论文名称 论文名称就是课题的名字 第一,名称要准确、规范。准确就是论文的名称要把论文研究的问题是什么,研究的对象是什么交待清楚,论文的名称一定要和研究的内容相一致,不能太大...[全文]
[硕士论文]企业管理研究生论文创新
企业发展过程中的重要途径和方式就是企业管理,结合市场发展以及企业的实际情况进行调整才是企业管理的重要需求。传统的管理方式已经无法满足企业发展的需求,因此电力企业创新管理体系构建十分必要,利用现有的资源,实现科学发展,制定企业发展的具体目标,适应环境的变化,尤其是要让企业内部实现紧密配合,提高企业的经济效益,满足更多的社会需求,管理创新可以促进企业...[全文]
[硕士论文]硕士研究生开题报告选题
很多 管理论文 的硕士研究生开题报告中,会对自己的学科领域在报告中最后做一个综合说明。述更多的并不是叙述,而是评述与述评,即要有作者自己的独特见解。要注重分析研究,善于发现问题,突出选题在当前研究中的位置、优势及突破点;要摒弃偏见,不引用与导师及本人观点相悖的观点是一个明显的错误。 1、开题报告毕业论文题目题目是硕士毕业论文中心思想的高度...[全文]
[硕士论文]硕士研究生开题报告怎么
硕士研究生开题报告 格式与开题报告技巧开题报告是研究生毕业论文工作的重要环节,是指为阐述、审核和确定毕业论文题目而做的专题书面报告,它是研究生实施毕业论文课题研究的前瞻性计划和依据,是监督和保证论文质量的重要措施,同时也是训练研究生科研能力与学术作品能力的有效的实践活动。《中国青年报》报道:复旦大学新闻学院2002级研究生所做毕业论文开题报告...[全文]
关闭窗口 论文咨询