分布式架构三驾马车详解(图文全面总结)

分布式是大型架构核心，下面我详解分布式架构@mikechen

分布式存储 (The Foundation)

分布式存储，解决了单机磁盘容量限制和 IO 性能瓶颈，是所有分布式系统的基石。

架构模式：采用 Master-Slave (主从) 架构。

由一个 Master 节点管理元数据（文件存放在哪），多个 DataNode 存储实际的数据块（Chunk）。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理：

数据分片 (Sharding)：将大文件切分成固定大小的数据块。

多副本机制 (Replication)：每一块数据在不同物理机上存储 3 份，确保单机损坏不丢失数据。

强一致性/最终一致性：通过协议保证副本间数据同步。

经典案例： * HDFS (Hadoop File System)：支撑 PB 级离线数据存储。

Ceph：提供块存储、对象存储和文件存储的统一方案。

分布式计算 (The Brain)

分布式计算，解决了如何高效处理海量数据的问题，其核心思想是 “移动计算而非移动数据”。

架构模式：典型的 DAG (有向无环图) 执行模型，将任务分解为多个阶段，并行在多台机器上运行。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理：

MapReduce： Map 负责拆分和过滤数据，Reduce 负责聚合结果。

数据本地性 (Data Locality)：尽量在数据所在的节点进行计算，减少网络带宽开销。

内存计算：如 Spark，将中间计算结果保存在内存中，速度比 MapReduce 快百倍。

经典案例：

Apache Spark：广泛用于实时/准实时数据分析、机器学习。

Apache Flink：目前最顶尖的流处理引擎，实现真正的低延迟计算。

分布式协调与调度 (The Conductor)

在成千上万个节点中，谁是主节点？谁故障了？谁该去执行哪个任务？这就是协调器的职责。

架构模式：基于一致性协议 (Paxos/Raft) 的集群架构。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理：

选主 (Leader Election)：当主节点挂掉，集群通过算法在几秒内选出新 Leader。

分布式锁：确保在分布式环境下，同一时刻只有一个节点能执行关键操作。

配置管理与服务发现：全局配置同步，实时监控节点存活状态。

经典案例：

ZooKeeper：经典的分布式协调框架，Kafka 和 HBase 的核心组件。

Etcd：基于 Raft 算法，是 Kubernetes (K8s) 的大脑，存储了整个集群的所有状态。

大厂技术架构面试专题