Sqoop的特点 – 为什么要学习Sqoop

1.目的

Apache Sqoop是Hadoop生态系统中的数据迁移工具,具有几个优点。 就像Sqoop可以通过单个命令加载整个表一样,它也可在并行性之上提供容错功能等等。 在本章中,了解Sqoop的主要特性,讨论Sqoop的几个优点。

—–add picture here——

2. Apache Sqoop简介

用来在RDBMS和Hadoop之间进行数据传输的工具就是我们所说的Sqoop。在这里,RDBMS指的是MySQL,Oracle SQL等,而Hadoop指的是Hive,HDFS和HBase等。

我们使用Sqoop将数据从RDBMS导入Hadoop,也可用于将数据从Hadoop导出到RDBMS。

Sqoop是Apache软件基金会的顶级项目之一,并且与Teradata,Netezza,Oracle,MySQL和Postgres等关系数据库在一起很好地工作。

3. Sqoop的主要特点

Sqoop有许多显着特点,下面列举了学习sqoop的几个原因:

并行导入/导出

当涉及到导入和导出数据时,Sqoop使用YARN框架。它在并行性的基础上提供容错功能。

所有主要RDBMS数据库的连接器

对于主流的RDBMS数据库,Sqoop提供了几乎所有的主流数据库的连接器。

导入SQL查询的结果

在HDFS中,可以导入从SQL查询返回的结果。

递增加载数据

可以在更新时加载部分表内容。Sqoop提供增量加载的功能。

全部加载

这是sqoop的重要功能之一,可以通过Sqoop中的单个命令加载整个表。另外,通过使用单个命令,可以加载数据库中的所有表。

Kerberos安全集成

Sqoop支持Kerberos身份验证。 Kerberos为计算机网络认证协议。允许通过非安全网络进行通信的节点以安全的方式彼此证明自己的身份。

数据直接加载到HIVE / HBase中

可以直接将数据加载到Apache Hive中。另外,可以将数据转储到NoSQL数据库HBase中。

数据压缩

通过使用deflate(gzip)算法和-compress参数,可以压缩数据。也可以在Apache Hive中加载压缩表。

支持Accumulo

源数据可以不是HDFS中的目录,可以指定Sqoop将Accumulo中的表导入。

Sqoop的特点 – 为什么要学习Sqoop

发表评论

邮箱地址不会被公开。 必填项已用*标注

+ 四十 七 = 56

滚动到顶部