海量数据是大型架构核心,下面我详解海量数据架构设计@mikechen
海量数据
海量数据,带来存储与访问压力,数据体量大、热点分布动态、读写并发高。

缓存设计目标:包括降低后端压力、缩短响应时延、保证系统可用性及在可接受范围内维护数据一致性。
在海量数据高并发场景下,常见的三层缓存架构是「本地缓存 → 分布式缓存 → 数据库/搜索引擎」。
三层相互配合,形成从最快但容量小到较慢,但容量大的分层体系。
三级缓存设计
本地缓存(L1):进程内缓存,位于应用服务器内存中(如 Guava Cache, Caffeine)。
特点:访问延迟最低、容量受限、每节点独立。
适用场景:热数据、会话信息、业务上下文。
策略:使用LRU/TTL控制失效、支持主动更新或订阅通知以降低一致性问题。

分布式缓存(L2):核心骨干层,通常由大内存的 Redis Cluster 或 Redis Proxy 架构组成。
特点:集中管理、容量较大、支持高并发访问与分布式扩展。
适用场景:共享热点数据、跨节点一致性要求较高的场景。
策略:采用合理分片、持久化与主从复制、结合异步刷新与熔断降级。
防止缓存雪崩与穿透;对写操作使用合理的失效或更新策略(写通过、写回或主动失效)。

二级持久化缓存/近源存储(L3)
特点:容量更大、成本更低、读性能介于分布式缓存与原始DB之间。
适用场景:非实时但频繁访问的数据、批量预热与回源减压。
策略:定期批量预热、分层归档,作为缓存未命中的后备层以降低数据库直接压力。
设计核心是:高频在上层、低频在下层。
读写都围绕“数据库是最终真相”展开,通过异步或版本控制来保证一致性。