随着大数据与云计算的发展,分布式存储成为支撑海量数据的核心技术@mikechen
HDFS
HDFS 是 GFS 的开源实现,已成为大数据生态的标准。
核心定位:大规模离线批处理存储(Hadoop 生态的标准文件系统)。

架构要点:NameNode 负责元数据和命名空间,DataNode 存数据块。
三副本等机制保证容错和高可用,高吞吐顺序读写优先于低延迟访问。
优点
非常适合 TB–PB 级大文件顺序读写,吞吐高。
简化一致性模型(一次写入,多次读取,追加为主),易扩展,容错性强,可跑在廉价机器上。
与 Hadoop/Spark 等大数据组件深度集成。
缺点
不适合低延迟访问,更多是批处理场景。
不适合海量超小文件,元数据压力大。
典型场景
ETL、数据仓库、离线统计、日志分析、推荐/广告模型训练等大数据平台底座。
GFS
GFS 是分布式存储的鼻祖,专为 Google 内部的海量搜索索引数据设计。

核心架构:单 Master + 多 ChunkServer,将大文件切分成 64MB 的 Chunk。
优点:
针对大文件顺序读写进行了极致优化。
极简的中心化管理,元数据处理效率高。
缺点:
单点故障风险:早期依赖单 Master(后有优化)。
不适合小文件:小文件过多会导致 Master 内存压力巨大。
典型场景:离线大数据处理、日志分析。
Ceph
Ceph 是一种统一分布式存储系统,同时支持对象存储、块存储和文件存储。
核心架构:无中心化架构,使用 CRUSH 算法计算数据存放位置,彻底解决了元数据服务器的性能瓶颈。

优点:高度可扩展、无单点瓶颈(依赖 CRUSH 映射),适合云平台与企业级存储。
缺点:部署与调优复杂,学习曲线较陡。
在极端小文件、或极低延迟需求下需精心配置,故障恢复与网络性能敏感。
FastTFS
FastDFS 是一款轻量级的开源分布式文件系统,专为解决“海量小文件”存储而生。

核心架构:Tracker(调度)+ Storage(存储)。
优点:
轻量简单:架构简洁,非常适合中小型互联网项目。
小文件优化:在处理图片、短视频、文档附件时效率极高。
线性扩容:支持分卷(Group)模式。
缺点:
不支持 POSIX 接口:无法像本地磁盘一样挂载。
功能单一:仅支持文件存取,不支持分块处理超大文件。
典型场景:电商图片库、社交平台头像、移动端附件存储。