分布式存储HDFS详解(图文全面总结)

分布式是大型架构的基石,下面我重点详解分布式存储HDFS@mikechen

分布式存储

随着大数据时代的到来,传统的集中式存储难以满足海量数据的存储、处理与可靠性需求。

所以,急需分布式存储来解决,而HDFS就是典型分布式存储系统。

HDFS,全程是:”Hadoop Distributed File System“。

HDFS,是一种为大规模数据处理而设计的分布式存储系统,是 Apache Hadoop 项目的核心子项目。

分布式存储HDFS详解(图文全面总结)-mikechen

因其高吞吐、可扩展与容错特性,被广泛应用于大数据存储与计算场景。

 

分布式存储HDFS架构

HDFS 架构,主要由 NameNode(管理节点)、 和 DataNode(存储节点) 组成。

整体架构,如下图所示:

分布式存储HDFS详解(图文全面总结)-mikechen

NameNode(主节点)

元数据管理:NameNode 是 HDFS 的大脑,负责管理文件系统的命名空间(目录树和文件)。

它存储着所有文件的元数据信息,如文件名、目录、文件…等等。

DataNode(从节点)

DataNode :是 HDFS 的工作节点。

负责:存储实际的用户数据,每个数据块都会存储在 DataNode 的本地文件系统上。

DataNode 会定期向 NameNode 发送心跳信号和数据块列表,汇报自己的状态和所存储的数据块信息。

以及,数据块操作,根据 NameNode 的指令,执行数据块的创建、删除、复制等操作。

 

分布式存储HDFS应用

HDFS ,适合批量处理大文件,主要用于,以下4大场景:

分布式存储HDFS详解(图文全面总结)-mikechen

大数据存储:适合存储 TB、PB 级别的大文件或日志数据。

大数据计算:与 MapReduce、Spark、Flink 等计算框架结合,提供高吞吐的数据存取能力。

日志与流数据存储:企业应用、物联网、视频存储等海量日志数据处理。

数据归档:可作为企业数据湖的基础存储层,支持数据长期保存和分析。

评论交流
    说说你的看法