分布式存储是大型架构的核心,下面我重点详解分布式存储@mikechen
HDFS
HDFS 是 Hadoop 生态的核心组件之一,专为 海量文件的离线存储与批处理 而设计。
HDFS:适合批处理、离线分析场景(如 MapReduce、Spark)。
对小文件不友好,但在吞吐量与大文件顺序读写方面表现优异。
它采用 主从架构(Master-Slave):

优点:
高容错(多副本机制);
适合大文件存储;
与 Hadoop / Spark 深度集成。
缺点:
不适合小文件(元数据膨胀严重);
主要用于离线分析,实时性差。
Ceph (全能型分布式存储)
Ceph:面向通用分布式存储的统一平台,支持对象存储(RADOS)、块存储(RBD)与文件系统(CephFS)。
采用无中心化的 CRUSH 算法实现数据分布与负载均衡,具备高度可扩展性与自修复能力。

Ceph:适用场景最广。
既能满足云平台的块存储与对象存储需求,也可作为后端为虚拟化、容器及分布式数据库提供存储。
读写延迟与元数据操作在中等水平,但通过扩容可保持性能线性增长。
FastDFS
FastDFS:来自开源社区的轻量级分布式文件系统,设计目标是高并发小文件与大文件的高效存储与下载。
采用 tracker(跟踪节点)与 storage(存储节点)分层架构,易于部署与维护。
FastDFS:在静态文件托管、媒体分发、图片与下载服务等场景表现良好。
特别擅长处理大量中小文件和高并发下载请求,延迟低且部署成本小。

优点:
轻量、简单、部署方便;
支持文件的自动分组、冗余;
性能优异,适合中小文件高频访问。
缺点:
不支持 POSIX 文件系统;
TFS
TFS(阿里巴巴/淘宝文件系统):为互联网大规模文件服务优化的系统。
关注高可用、高并发和成本效率,融合了对象与文件服务特性,常与上层业务体系深度集成。
强调高可用与低成本存储,适合对延迟与一致性有特定优化需求的互联网业务。

优点:
高性能文件读写;
适合亿级小文件;
支撑淘宝图片、日志、搜索索引。
缺点:
封闭性强,开源程度有限;
与 Hadoop 生态兼容性差。
关于mikechen
mikechen睿哥,10年+大厂架构经验,资深技术专家,就职于阿里巴巴、淘宝、百度等一线互联网大厂。