1.目的
本章简要介绍如何安装和配置Apache Pig。 Apache Pig是对MapReduce的一种抽象。 Pig基本上是一种工具,可以通过将数据表示为数据流来轻松执行更大数据集的分析。 可以访问 http://pig.apache.org/docs/r0.17.0/start.html 了解详细安装过程。本文以Ubuntu操作系统为例。
2.在Ubuntu上安装Apache Pig
安装Apache Pig的先决条件
您必须在系统上安装Hadoop和Java JDK。 因此,在安装Pig之前,应该按照本章中给出的步骤安装Hadoop和Java。
下载Apache Pig
可以从下面的链接下载Pig文件:
https://archive.cloudera.com/cdh5/cdh/5/
hadoop-2.5.0-cdh5.3.2已经安装在系统上,因此支持的pig版本将从这里下载,这是pig-0.12.0-cdh5.3.2。
安装 Apache Pig
Apache Pig的安装步骤如下:
第1 步:
将下载的pig-0.12.0-cdh5.3.2.tar文件从Downloads文件夹移至安装了Hadoop的目录。
第2步:
通过在终端上执行以下命令来解析pig-0.12.0-cdh5.3.2.tar文件:
tar zxvf pig-0.12.0-cdh5.3.2.tar
第3步:
现在我们需要配置Pig。 为了配置pig,我们需要编辑“.bashrc”文件,
在这个文件中,我们需要添加以下内容:
export PATH = $ PATH:/home/pig-0.12.0-cdh5.3.2/bin export PIG_HOME = / home / pig-0.12.0-cdh5.3.2
导出PIG_CLASSPATH = $ HADOOP_HOME / conf
第4 步:
通过执行以下命令更新.bashrc文件:
source .bashrc
刷新.bashrc文件后,Pig成功安装。 为了检查你的Pig文件的版本,执行下面的命令:
pig -version
如果下面的输出显示意味着您已成功配置Pig:
开始使用 Apache Pig
我们可以使用以下两种模式之一启动Pig:
本地模式
集群模式
要开始在本地模式下使用pig,使用“-x local”选项,而在没有任何选项的情况下只执行“pig”命令时,Pig将以群集模式启动。 在本地模式下运行Pig时,它只能访问本地文件系统上的文件。 而在集群模式下启动 Pig 时,Pig 可以访问HDFS中存在的文件。
要以本地模式启动Pig,请执行以下命令:
pig -x local
如果你得到了下面的输出,这意味着Pig在本地模式下成功启动。
要以群集模式启动Pig,请执行以下命令:
Pig
如果您获得了下面的输出,那意味着Pig在群集模式下成功启动。