Sqoop 简介及 Sqoop2区别

1 . 什么是Sqoop?

Sqoop 是用于在Hadoop和关系数据库服务器之间传输数据的工具。 通过Sqoop,可将关系数据库管理系统(RDBMS)(如MySQL或Oracle)的数据导入Hadoop分布式文件系统(HDFS), 此外,还可以使用Sqoop转换Hadoop MapReduce中的数据,然后将数据导回RDBMS中。

——add picture here —-

另外, Apache Sqoop提供了几个十分有用的进程,例如依靠数据库来描述导入数据的结构模式等。 Sqoop使用MapReduce来导入和导出数据。 此外,还提供并行操作以及容错处理功能。 

Sqoop(“SQL-to-Hadoop”)是一个基于的命令行的工具。 它提供以下功能:

1.将单个表或整个数据库导入HDFS中的文件

2.可以生成Java类以允许通过生成的Java类与导入的数据进行交互

3. 提供了从SQL数据库直接导入Hive数据仓库的功能

2 .  Sqoop 与 Sqoop 2的区别

Apache Sqoop

Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。

Sqoop最新的稳定生产版本是1.4.7。 Sqoop2的最新版本是1.99.7。 请注意,1.99.7与1.4.7不兼容,Sqoop2未完成功能,不适用于生产部署。因此,介绍Sqoop的系列文章仍然集中Sqoop的稳定生产版本。

1542463448939059.png

3. Sqoop 1.4.X 版本架构

1542463672598789.pngxx

在架构上:sqoop1使用sqoop客户端直接提交的方式 

访问方式:CLI控制台方式进行访问 

安全性:命令或脚本中指定用户数据库名及密码

根据Apache Sqoop的最新文档, Sqoop2 有些特性还没有开发完成,不能应用在生产环境中。所以接下来的系列文章,还是主要介绍Sqoop的稳定版本, Sqoop 1.4.X。

Sqoop 简介及 Sqoop2区别

发表评论

邮箱地址不会被公开。 必填项已用*标注

5 × 九 =

滚动到顶部