分布式是大型架构的基石,下面我重点详解分布式存储HDFS@mikechen
分布式存储
随着大数据时代的到来,传统的集中式存储难以满足海量数据的存储、处理与可靠性需求。
所以,急需分布式存储来解决,而HDFS就是典型分布式存储系统。
HDFS,全程是:”Hadoop Distributed File System“。
HDFS,是一种为大规模数据处理而设计的分布式存储系统,是 Apache Hadoop 项目的核心子项目。
因其高吞吐、可扩展与容错特性,被广泛应用于大数据存储与计算场景。
分布式存储HDFS架构
HDFS 架构,主要由 NameNode(管理节点)、 和 DataNode(存储节点) 组成。
整体架构,如下图所示:
NameNode(主节点)
元数据管理:NameNode 是 HDFS 的大脑,负责管理文件系统的命名空间(目录树和文件)。
它存储着所有文件的元数据信息,如文件名、目录、文件…等等。
DataNode(从节点)
DataNode :是 HDFS 的工作节点。
负责:存储实际的用户数据,每个数据块都会存储在 DataNode 的本地文件系统上。
DataNode 会定期向 NameNode 发送心跳信号和数据块列表,汇报自己的状态和所存储的数据块信息。
以及,数据块操作,根据 NameNode 的指令,执行数据块的创建、删除、复制等操作。
分布式存储HDFS应用
HDFS ,适合批量处理大文件,主要用于,以下4大场景:
大数据存储:适合存储 TB、PB 级别的大文件或日志数据。
大数据计算:与 MapReduce、Spark、Flink 等计算框架结合,提供高吞吐的数据存取能力。
日志与流数据存储:企业应用、物联网、视频存储等海量日志数据处理。
数据归档:可作为企业数据湖的基础存储层,支持数据长期保存和分析。