Apache Flume 用户场景

1. Apache Flume介绍

Apache Flume用于从大量不同的 数据源向统一的数据存储(如Hadoop分布式文件系统HDFS)收集,汇总和传输大量的流式数据,例如日志文件,事件日志等。

Flume是一种分布式,可靠的且可配置的数据日志收集工具。 Flume主要是为了从各种Web服务器向HDFS收集流数据(日志数据)而设计的。

2. Apache Flume 用户案例

下面列出所有可能的Apache Flume用例:

? 从各种来源获取数据事件和日志并存储到Hadoop系统中,可以使用Apache Flume;

? 如果需要以高速率和高容量的数据在Hadoop系统中处理,可以使用Apache Flume;

? 可以将数据可靠地传送到目的地。

? 当数据的速度和数量增加时,通过Flume可扩展的解决方案,只需增加更多的机器就可以扩展;

? 不会产生任何停机时间,并且Flume可动态配置Flume Architecture的各个组件。

? 实时数据流,可以使用Apache Flume;

? 从多台服务器高效收集日志数据并将其提取到分布式存储系统中(HDFS,HBase)可以使用Flume;

? 可以实时的,以批处理模式从多个服务器收集数据;

? 可导入社交媒体网站(如Facebook和Twitter)和各种电子商务网站实时生成的大量事件数据并分析;

? 可以从许多数据来源收集数据,然后使用Flume将数据事件移动到多个目的地。

? Flume支持Multi-hop 流, fan-in 和fan-out 数据流, 以及 contextual routing。

? 如果有多个Web应用程序服务正在运行,生成大量的日志信息,必须以非常快的速度将日志移动到HDFS,可以使用Apache Flume;

? 使用抓取工具下载twitter中的各种数据,Flume可以将这些数据移至HDFS;

? 通过使用interceptors,可以在Flume中处理正在传输的数据。

? Flume可以 对数据进行屏蔽或过滤; 

? 可以水平扩展容量;

Apache Flume 用户场景

发表评论

邮箱地址不会被公开。 必填项已用*标注

二十 六 − = 16

滚动到顶部