分布式是大型架构核心,下面我详解分布式架构@mikechen
分布式存储 (The Foundation)
分布式存储,解决了单机磁盘容量限制和 IO 性能瓶颈,是所有分布式系统的基石。
架构模式: 采用 Master-Slave (主从) 架构。
由一个 Master 节点管理元数据(文件存放在哪),多个 DataNode 存储实际的数据块(Chunk)。

核心原理:
数据分片 (Sharding): 将大文件切分成固定大小的数据块。
多副本机制 (Replication): 每一块数据在不同物理机上存储 3 份,确保单机损坏不丢失数据。
强一致性/最终一致性: 通过协议保证副本间数据同步。
经典案例: * HDFS (Hadoop File System): 支撑 PB 级离线数据存储。
Ceph: 提供块存储、对象存储和文件存储的统一方案。
分布式计算 (The Brain)
分布式计算,解决了如何高效处理海量数据的问题,其核心思想是 “移动计算而非移动数据”。
架构模式: 典型的 DAG (有向无环图) 执行模型,将任务分解为多个阶段,并行在多台机器上运行。

核心原理:
MapReduce: Map 负责拆分和过滤数据,Reduce 负责聚合结果。
数据本地性 (Data Locality): 尽量在数据所在的节点进行计算,减少网络带宽开销。
内存计算: 如 Spark,将中间计算结果保存在内存中,速度比 MapReduce 快百倍。
经典案例:
Apache Spark: 广泛用于实时/准实时数据分析、机器学习。
Apache Flink: 目前最顶尖的流处理引擎,实现真正的低延迟计算。
分布式协调与调度 (The Conductor)
在成千上万个节点中,谁是主节点?谁故障了?谁该去执行哪个任务?这就是协调器的职责。
架构模式: 基于 一致性协议 (Paxos/Raft) 的集群架构。

核心原理:
选主 (Leader Election): 当主节点挂掉,集群通过算法在几秒内选出新 Leader。
分布式锁: 确保在分布式环境下,同一时刻只有一个节点能执行关键操作。
配置管理与服务发现: 全局配置同步,实时监控节点存活状态。
经典案例:
ZooKeeper: 经典的分布式协调框架,Kafka 和 HBase 的核心组件。
Etcd: 基于 Raft 算法,是 Kubernetes (K8s) 的大脑,存储了整个集群的所有状态。
mikechen睿哥
10年+一线大厂架构实战经验,操盘多个亿级大厂核心项目,就职于阿里、淘宝等一线大厂。