02

文/杨栋

Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。

HCE计算框架是一个开源项目,旨在通过优化任务执行的各个阶段,提升整个Hadoop系统的效率。与Hadoop Java框架相比,基于HCE框架的MapReduce任务最高可以节省超过30%的CPU资源使用。

图1 Hadoop生态系统中的HCE计算框架

图1 Hadoop生态系统中的HCE计算框架

图1给出了HCE框架在Hadoop生态系统中所处的位置。对于OLTP系统来说,用户通过Web前端生成相应请求,请求经过中间件处理,作为数据进入数据库或者K-V存储系统中,同时会产生日志。OLTP系统产生的数据和日志都会作为分析系统的输入,对于搜索引擎和广告系统来说,每天的日志会轻松超过TB。日志和业务数据一般会存放到海量存储系统HDFS文件系统或者K-V存储系统中,分布式计算框架MapReduce一般会基于存储系统之上。每天会执行成千上万的MapReduce作业进行海量数据处理,产生的结果会有三个去处:存放于海量存储系统以备后续使用;导入用于产生报表或分析的数据库;作为OLTP系统的输入,导入线上存储中。MapReduce作业一般由内部用户通过Hadoop原生客户端、Pig/DISQL语言客户端或者Hive数据仓库三种方式进行提交,作业执行结果可以通过SQL客户端查询。 阅读全文 »

标签:
阅读:25,462 次
25

本期封面报道:海量数据

随着互联网、移动互联网和物联网的发展,各种终端、信息收集器的数量和种类不断增加,我们每个人、世间万事万物每时每刻产生的大量数据,都在不断进入信息系统,等待存储、分析和充分利用。我们将这些浩如烟海的数据统称为海量数据,也就是国外人们更喜欢说的Big Data。本期封面报道中,将有来自支付宝、百度、Yahoo!、SAP、Teradata、新浪、淘宝、麦包包、优酷、Admaster、Esri等业内领先的软件企业和互联网企业的专家,分享他们在应对海量数据挑战方面的见解、经验和技术实战。内容涵盖运维、NoSQL、C++MapReduce框架HCE、数据魔方平台架构、电子商务推荐引擎、视频网站Big Data实践、Hadoop多维分析架构、海量空间数据库、《纽约时报》的数据可视化实践等。

64412e05gw1djenhnxg5gj

(1) Big Data技术综述

(2) 圆桌论坛:如何应对海量数据的挑战

(3) 运维技术大势谈

(4) NoSQL生态系统

(5) HCE:提升资源利用率的MapReduce框架

(6) 淘宝数据魔方技术架构分析

(7) 数据驱动销售——个性化推荐引擎

(8) 视频网站的Big Data解决之道 阅读全文 »

标签:
阅读:45,207 次
preload preload preload
京ICP备06065162