1.目的
本章介绍Apache Flume安装和配置的简单步骤。 帮助了解设置Apache Flume环境, Apache Flume是一种用于从大量不同的数据源收集,汇总和传输大量流数据(如日志文件,事件等)到分布式数据存储等(如HDFS)的工具。
2. Apache Flume安装
请按照下面给出的步骤安装和配置Flume:
第1步:
从下面的链接下载Flume:
http://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz
第2步:
解压缩下载的Apache Flume文件:
tar xzf apache-flume-1.6.0-bin.tar.gz
第3步:
设置 FLUME_HOME 环境变量:
export FLUME_HOME=/home/apache-flume-1.6.0-bin/ export PATH=$PATH:$FLUME_HOME/bin/
第4步:
为了验证Flume已成功配置,执行以下命令,并且如果出现下面的输出,表示已成功安装和配置Flume。
3.配置Flume将数据复制到HDFS
第1步:在主目录中创建一个access.log文件,并在其中添加数据并保存。
第2步:在/home/apache-flume-1.6.0-bin/conf内创建一个文件flume.conf文件
配置以下参数:
.FileAgent.sources = tail .FileAgent.channels = Channel-2 .FileAgent.sinks = HDFS .FileAgent.sources.tail.type = exec .FileAgent.sources.tail.command = tail -F /home/access.log .FileAgent.sources.tail.channels = Channel-2 . .FileAgent.sinks.HDFS.type = hdfs .FileAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/flume .FileAgent.sinks.HDFS.hdfs.fileType = DataStream .FileAgent.sinks.HDFS.channel = Channel-2 FileAgent.channels.Channel-2.type = memory
第3步:启动Flume将数据复制到HDFS:
bin / flume-ng agent --conf ./conf/ -f conf / flume.conf -n FileAgent
注意:Agent名称由-n FileAgent指定,并且必须与-f conf / flume.conf中给定的Agent名称匹配
为了检查数据是否以HDFS复制,可以使用Web控制台(http:// localhost:50070)或从HDFS中的命令进行查看。
在Web控制台上,可以在“/ flume”目录中查看您的文件,如下所示:
Apache Flume 安装