分布式存储HDFS详解(图文全面总结)

分布式是大型架构的基石，下面我重点详解分布式存储HDFS@mikechen

分布式存储

随着大数据时代的到来，传统的集中式存储难以满足海量数据的存储、处理与可靠性需求。

所以，急需分布式存储来解决，而HDFS就是典型分布式存储系统。

HDFS，全程是：”Hadoop Distributed File System“。

HDFS，是一种为大规模数据处理而设计的分布式存储系统，是 Apache Hadoop 项目的核心子项目。

分布式存储HDFS详解(图文全面总结)-mikechen

因其高吞吐、可扩展与容错特性，被广泛应用于大数据存储与计算场景。

分布式存储HDFS架构

HDFS 架构，主要由 NameNode（管理节点）、和 DataNode（存储节点）组成。

整体架构，如下图所示：

分布式存储HDFS详解(图文全面总结)-mikechen

NameNode（主节点）

元数据管理：NameNode 是 HDFS 的大脑，负责管理文件系统的命名空间（目录树和文件）。

它存储着所有文件的元数据信息，如文件名、目录、文件…等等。

DataNode（从节点）

DataNode ：是 HDFS 的工作节点。

负责：存储实际的用户数据,每个数据块都会存储在 DataNode 的本地文件系统上。

DataNode 会定期向 NameNode 发送心跳信号和数据块列表，汇报自己的状态和所存储的数据块信息。

以及，数据块操作，根据 NameNode 的指令，执行数据块的创建、删除、复制等操作。

分布式存储HDFS应用

HDFS ，适合批量处理大文件，主要用于，以下4大场景：

分布式存储HDFS详解(图文全面总结)-mikechen

大数据存储：适合存储 TB、PB 级别的大文件或日志数据。

大数据计算：与 MapReduce、Spark、Flink 等计算框架结合，提供高吞吐的数据存取能力。

日志与流数据存储：企业应用、物联网、视频存储等海量日志数据处理。

数据归档：可作为企业数据湖的基础存储层，支持数据长期保存和分析。

大厂技术架构面试专题