1.目的
使用Flume将日志数据移动到HDFS中时,Apache Flume中存在几种数据流的模式。 Multi-hop Flow, Fan-out Flow 和 Fan-in Flow数据流的模式。 在本章中,将学习Flume数据流及其类型。
—–add picture here —-
2. Flume数据流简介
使用Flume将日志数据传输到HDFS,消息事件和日志数据是由日志服务器生成的。这些服务器上运行着 Flume Agent, Agent从数据生成器接收数据信息。
在Flume中有一个中间节点来收集这些agent中的消息数据,这些节点就是我们所说的事件收集器。 在Flume中,可以有多个事件收集器。
之后,所有这些收集器的数据将被汇总并推送到统一存储系统, 如HBase或HDFS。
为了更好地理解,请参阅以下Flume数据流图,它解释了Flume数据流模型。
—–add picture here—-
3. Flume中的数据流类型
Multi-hop Flow
事件在到达最终目的地之前,可以存在多个agent,并且事件可以通过Flume内的多个agent,这就是Flume中的 Multi-hop Flow 。
Fan-out Flow
当数据从一个Source流向多个Channel时,称之为Fan-out Flow。在Flume数据流中,分为两类:
Replicating
数据流将在所有配置的通道中复制数据
Multiplexing
数据流将数据发送到选定的通道中
Fan-in Flow
数据将从多个Source传输到一个通道,称之为Fan-in Flow.
Apache Flume Data Flow – Types