Apache Flume 用户场景

1. Apache Flume介绍

Apache Flume用于从大量不同的 数据源向统一的数据存储(如Hadoop分布式文件系统HDFS)收集,汇总和传输大量的流式数据,例如日志文件,事件日志等。

Flume是一种分布式,可靠的且可配置的数据日志收集工具。 Flume主要是为了从各种Web服务器向HDFS收集流数据(日志数据)而设计的。

2. Apache Flume 用户案例

下面列出所有可能的Apache Flume用例:

从各种来源获取数据事件和日志并存储到Hadoop系统中,可以使用Apache Flume;

如果需要以高速率和高容量的数据在Hadoop系统中处理,可以使用Apache Flume;

可以将数据可靠地传送到目的地。

当数据的速度和数量增加时,通过Flume可扩展的解决方案,只需增加更多的机器就可以扩展;

不会产生任何停机时间,并且Flume可动态配置Flume Architecture的各个组件。

实时数据流,可以使用Apache Flume;

从多台服务器高效收集日志数据并将其提取到分布式存储系统中(HDFS,HBase)可以使用Flume;

可以实时的,以批处理模式从多个服务器收集数据;

可导入社交媒体网站(如Facebook和Twitter)和各种电子商务网站实时生成的大量事件数据并分析;

可以从许多数据来源收集数据,然后使用Flume将数据事件移动到多个目的地。

Flume支持Multi-hop 流, fan-in 和fan-out 数据流, 以及 contextual routing。

如果有多个Web应用程序服务正在运行,生成大量的日志信息,必须以非常快的速度将日志移动到HDFS,可以使用Apache Flume;

使用抓取工具下载twitter中的各种数据,Flume可以将这些数据移至HDFS;

通过使用interceptors,可以在Flume中处理正在传输的数据。

Flume可以 对数据进行屏蔽或过滤; 

可以水平扩展容量;

Apache Flume 用户场景

发表评论

电子邮件地址不会被公开。 必填项已用*标注

七十 八 ÷ 三十 九 =