1.目的
Apache flume 是在将数据从源位置传输到目的位置的开源数据收集工具。 在本章中,将讨论Apache Flume的所有优点。 除了Flume的优点之外,还有一些Flume的缺点。
2. Apache Flume介绍
Apache Flume用于从大量不同的 数据源向统一的数据存储(如Hadoop分布式文件系统HDFS)收集,汇总和传输大量的流式数据,例如日志文件,事件日志等。
Flume是一种分布式,可靠的且可配置的数据日志收集工具。 Flume主要是为了从各种Web服务器向HDFS收集流数据(日志数据)而设计的。
3. Flume Features and Limitations
——-add picture here ——
Apache Flume特性
Apache Flume有许多核心特性,如下:
开源: Apache Flume是开源的,即易于获得。
文档丰富
提供丰富的文档,有很多很好的例子和模式,可以在其文档中找到。
低延迟
Apache Flume提供较高的吞吐量和较低的延迟。
Configuration: 易于配置;
数据流
在Hadoop环境中,Flume可以连续生成流式数据源。 比如日志文件等
Routing
Flume会查看流数据或Event等有效负载,构建合适的Routing (Routing Context)。
节省成本
Flume为开源软件,安装,操作和维护成本低。
容错和可扩展
Apache Flume具有高度可扩展性,可靠性,可用性,可水平扩展以及可针对不同源数据和Sink进行定制,有助于收集,汇总和移动大量的数据集。 例如Facebook,Twitter和电子商务网站产生的数据等
分步式
本质上是分布的,可以在多台机器上部署。
可靠的消息传递
提供可靠的消息传递。 在Flume中,transaction (事物)是基于channel的,其中为每条消息维护两个transaction(一个source之间的,一个和sink之间的)。
基于稳定的数据流
提供了一种可靠和分布式的解决方案,并从HDFS中的各种来源如网络流量,社交媒体,电子邮件消息,日志文件等接收实时流数据。而且,在读取和写入操作之间,Flume能够提供稳定的数据流。
Apache Flume 的缺点
——-add picture here ——
下面我们来讨论一下Apache Flume在某些方面的缺点。 如:
Weak Ordering Guarantee
Apache Flume 对于 消息排序的支持不强;
Duplicacy
Flume不保证信息到达是唯一的。 重复的消息时间可能会被接受到。
低可扩展性
影响Flume硬件的高低的因素很多,在大多数情况下,是一个反复试验的过程。 因此,从这点上考虑,其可扩展性很低。
可靠性问题
如果考虑到所有因素,如果没有明智地选择存储的选择,则其可扩展性和可靠性受到质疑。