1.目的

本教程解释了Hadoop HDFS的功能。 Hadoop分布式文件系统(HDFS)是当今最可靠的存储系统,它可以存储大量结构化和非结构化数据。 HDFS通过其独特的数据复制功能提供可靠的数据存储。 HDFS是高度容错,可靠,可用,可扩展的分布式文件系统。

2. HDFS介绍

HDFS是一个分布式文件系统,为具有很大尺寸的文件提供冗余存储空间。 它基于Google的Filesystem(GFS或GoogleFS)。 它被设计为在普通硬件上运行。 HDFS具有高度的容错能力,并提供对应用程序数据的高吞吐量访问。 它适用于具有大型数据集的应用程序。 HDFS被认为是世界上最可靠的存储系统。 到2017年底,地球上75%的数据将存在于HDFS中。

3. Hadoop HDFS的特性

3.1 容错

HDFS容错是指系统在不利条件下的工作强度以及系统故障情况下如何处理。 HDFS具有高度容错性,在HDFS中,数据分为块,并在群集中的不同机器上创建块的多个副本(此副本创建可配置)。 因此,无论群集中的任何计算机何时关闭,客户端都可以轻松地从其他包含相同数据块副本的计算机访问其数据。 HDFS还通过在另一个机架上创建数据块的副本来维护复制因子。 因此,如果突然出现一台机器发生故障,用户可以访问另一个机架中其他从机的数据。

3.2  高可用性

HDFS是高度可用的文件系统,通过在HDFS集群中存在的其他从节点上创建块的副本,可以在HDFS集群中的节点之间复制数据。因此,无论何时用户想要访问这些数据,他们都可以从包含其块的从站访问其数据,并在群集中最近的节点上可用。在节点发生故障等不利情况下,用户可以轻松地从其他节点访问其数据。因为在HDFS集群中存在的其他节点上创建了包含用户数据的块的重复副本。

3.3 数据可靠性

HDFS是一个分布式文件系统,提供可靠的数据存储。 HDFS可以将数据存储在100 PB的范围内。它还可以将数据可靠地存储在节点集群中。 HDFS将数据分成块,这些块存储在HDFS群集中的节点上。它通过创建集群中存在的节点上存在的每个块的副本来可靠地存储数据,因此提供了容错功能。如果包含数据的节点关闭,则用户可以轻松地从HDFS群集中包含相同数据副本的其他节点访问该数据。 HDFS默认创建3个包含HDFS集群节点中存在数据的块副本。因此,用户可以快速获得数据,因此用户不会面临数据丢失的问题。因此HDFS非常可靠。

3.4复制

数据复制是Hadoop HDFS最重要和独特的功能之一。在HDFS中,复制数据是为了解决不利条件下的数据丢失问题,如节点崩溃,硬件故障等。由于数据通过创建块在群集中的多台机器上进行复制。复制过程由HDFS定期维护,HDFS不断在群集中存在的不同机器上创建用户数据的副本。因此,只要群集中的任何机器崩溃,用户就可以从包含该数据块的其他机器访问其数据。因此不会丢失用户数据。

3.5可扩展性

由于HDFS将数据存储在集群中的多个节点上,因此当需求增加时,我们可以扩展集群。有两种可伸缩性机制可用:垂直可伸缩性 – 在群集的现有节点上添加更多资源(CPU,内存,磁盘)。另一种方式是水平可伸缩性 – 在集群中添加更多的机器。水平方式是首选,因为我们可以在不中断任何停机的情况下,将群集从10个节点扩展到100个节点。

3.6 分布式存储

在HDFS中,所有功能都是通过分布式存储和复制来实现的。 HDFS数据以分布式方式存储在HDFS群集中的节点上。在HDFS中,数据被分成块并存储在HDFS集群中的节点上。然后创建每个块的副本并将其存储在集群中的其他节点上。因此,如果群集中的单个机器崩溃,我们可以轻松地从包含其副本的其他节点访问我们的数据。



关注微信服务号,手机看文章
关注微信服务号,手机看文章