Apache Flume的特性及限制

1.目的

Apache flume 是在将数据从源位置传输到目的位置的开源数据收集工具。 在本章中,将讨论Apache Flume的所有优点。 除了Flume的优点之外,还有一些Flume的缺点。 

2. Apache Flume介绍

Apache Flume用于从大量不同的 数据源向统一的数据存储(如Hadoop分布式文件系统HDFS)收集,汇总和传输大量的流式数据,例如日志文件,事件日志等。

Flume是一种分布式,可靠的且可配置的数据日志收集工具。 Flume主要是为了从各种Web服务器向HDFS收集流数据(日志数据)而设计的。

3. Flume Features and Limitations

——-add picture here ——

 Apache Flume特性

Apache Flume有许多核心特性,如下:

开源: Apache Flume是开源的,即易于获得。

文档丰富

提供丰富的文档,有很多很好的例子和模式,可以在其文档中找到。

低延迟

Apache Flume提供较高的吞吐量和较低的延迟。

Configuration: 易于配置;

数据流

在Hadoop环境中,Flume可以连续生成流式数据源。 比如日志文件等

Routing

Flume会查看流数据或Event等有效负载,构建合适的Routing (Routing Context)。

节省成本

Flume为开源软件,安装,操作和维护成本低。

容错和可扩展

Apache Flume具有高度可扩展性,可靠性,可用性,可水平扩展以及可针对不同源数据和Sink进行定制,有助于收集,汇总和移动大量的数据集。 例如Facebook,Twitter和电子商务网站产生的数据等

分步式

本质上是分布的,可以在多台机器上部署。

可靠的消息传递

提供可靠的消息传递。 在Flume中,transaction (事物)是基于channel的,其中为每条消息维护两个transaction(一个source之间的,一个和sink之间的)。

基于稳定的数据流

提供了一种可靠和分布式的解决方案,并从HDFS中的各种来源如网络流量,社交媒体,电子邮件消息,日志文件等接收实时流数据。而且,在读取和写入操作之间,Flume能够提供稳定的数据流。

Apache Flume 的缺点

——-add picture here ——

下面我们来讨论一下Apache Flume在某些方面的缺点。 如:

Weak Ordering Guarantee

Apache Flume 对于 消息排序的支持不强;

Duplicacy

Flume不保证信息到达是唯一的。 重复的消息时间可能会被接受到。

低可扩展性

影响Flume硬件的高低的因素很多,在大多数情况下,是一个反复试验的过程。 因此,从这点上考虑,其可扩展性很低。

可靠性问题

如果考虑到所有因素,如果没有明智地选择存储的选择,则其可扩展性和可靠性受到质疑。

Apache Flume的特性及限制

发表评论

邮箱地址不会被公开。 必填项已用*标注

六 × 1 =

滚动到顶部