走近阿里云5K平台,谈5000节点集群调度与性能优化

走近阿里云5K平台,谈5000节点集群调度与性能优化

  5K项目是飞天平台的里程碑,系统在规模、性能和容错方面都得到了飞跃式的发展,达到世界领先水平。伏羲作为飞天平台的分布式调度系统,能支持单集群5000节点,并发运行10000作业,30分钟完成100TB数据Terasort,性能是当时Yahoo!在Sort Benchmark上世界纪录的两倍。

  伏羲介绍

  “飞天”是阿里巴巴的云计算平台,其中的分布式

1404 0 2015-03-11 科技和博客

流式大数据处理的三种框架:Storm,Spark和Samza

流式大数据处理的三种框架:Storm,Spark和Samza

  许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。

  Apache Storm

  在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流

1228 0 2015-03-11 IT科技前沿