分布式架构三驾马车详解(图文全面总结)

分布式是大型架构核心,下面我详解分布式架构@mikechen

分布式存储 (The Foundation)

分布式存储,解决了单机磁盘容量限制和 IO 性能瓶颈,是所有分布式系统的基石。

架构模式: 采用 Master-Slave (主从) 架构。

由一个 Master 节点管理元数据(文件存放在哪),多个 DataNode 存储实际的数据块(Chunk)。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理:

数据分片 (Sharding): 将大文件切分成固定大小的数据块。

多副本机制 (Replication): 每一块数据在不同物理机上存储 3 份,确保单机损坏不丢失数据。

强一致性/最终一致性: 通过协议保证副本间数据同步。

经典案例: * HDFS (Hadoop File System): 支撑 PB 级离线数据存储。

Ceph: 提供块存储、对象存储和文件存储的统一方案。

 

分布式计算 (The Brain)

分布式计算,解决了如何高效处理海量数据的问题,其核心思想是 “移动计算而非移动数据”。

架构模式: 典型的 DAG (有向无环图) 执行模型,将任务分解为多个阶段,并行在多台机器上运行。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理:

MapReduce: Map 负责拆分和过滤数据,Reduce 负责聚合结果。

数据本地性 (Data Locality): 尽量在数据所在的节点进行计算,减少网络带宽开销。

内存计算: 如 Spark,将中间计算结果保存在内存中,速度比 MapReduce 快百倍。

经典案例:

Apache Spark: 广泛用于实时/准实时数据分析、机器学习。

Apache Flink: 目前最顶尖的流处理引擎,实现真正的低延迟计算。

 

分布式协调与调度 (The Conductor)

在成千上万个节点中,谁是主节点?谁故障了?谁该去执行哪个任务?这就是协调器的职责。

架构模式: 基于 一致性协议 (Paxos/Raft) 的集群架构。

分布式架构三驾马车详解(图文全面总结)-mikechen

核心原理:

选主 (Leader Election): 当主节点挂掉,集群通过算法在几秒内选出新 Leader。

分布式锁: 确保在分布式环境下,同一时刻只有一个节点能执行关键操作。

配置管理与服务发现: 全局配置同步,实时监控节点存活状态。

经典案例:

ZooKeeper: 经典的分布式协调框架,Kafka 和 HBase 的核心组件。

Etcd: 基于 Raft 算法,是 Kubernetes (K8s) 的大脑,存储了整个集群的所有状态。

mikechen睿哥

10年+一线大厂架构实战经验,操盘多个亿级大厂核心项目,就职于阿里、淘宝等一线大厂。

评论交流
    说说你的看法