高可用是大型架构的必备技能,也是大厂经常考察的内容,下面我重点详解8大高可用系统方案@mikechen
服务冗余
服务冗余:是构建高可用系统的重要手段之一,简单来说,就是部署多份相同的服务实例。
当其中一个实例发生故障时,其他实例可以立即接管,从而保证服务的持续可用。
水平扩展
通过部署多个相同的服务实例,来实现服务冗余,每个服务实例可以处理一部分的请求。
垂直扩展
通过部署多个不同的服务实例,来实现服务冗余,每个服务实例可以处理不同的请求。
混合扩展
通过组合水平扩展、和垂直扩展来实现服务冗余。
除此之外,可以使用工具,比如: Keepalived、HAProxy…等来监控主服务状态,自动切换备份服务。
主备切换
主备切换:是一种常见的高可用性(High Availability, HA)解决方案。
主备切换,核心思想:是部署一个或多个备用服务器,平时处于待机状态。
主备切换的工作原理,如下:
主节点(Master)
主节点:负责处理客户端的请求和事务,所有的写操作都发生在主节点上;
备节点(Slave)
然后,备节点负责复制主节点的数据、和事务,保持与主节点的数据一致性;
心跳检测
最后,主节点和备节点之间通过心跳检测来监控对方的状态,当主节点故障时,备节点可以自动接管主节点的工作。
这种机制通常用于数据库、缓存系统…….等需要高可用性的场景。
比如:: MySQL、Oracle、SQL Server…等数据库,都支持主备切换。
负载均衡
负载均衡,是将请求分发到多台服务器上,避免单点过载,提高系统的整体处理能力。
常见的方案,如下:
硬件负载均衡
使用F5…等专业的负载均衡设备。
软件负载均衡
使用Nginx、HAProxy。。。等软件。
异地多活
异地多活架构:是一种高可用性设计方案,通过在不同地理位置同时提供服务,确保系统在发生故障时仍能保持业务连续性。
比如:地震、火灾、大规模停电…等,导致整个数据中心不可用的情况。
常见的实现方案,如下:
同城双活
在同一城市内部署多个机房,通过高速网络连接,实现快速的数据同步、和低延迟。
两地三中心
比如:在两个不同城市各设立一个主机房和一个备机房,以提高容灾能力,同时保证业务连续性。
它通过在地理位置上分散的多个数据中心部署相同的应用和服务,使得即使某个数据中心发生故障,其他数据中心仍然可以继续提供服务,保障业务的连续性。
过载保护
过载保护:是指当系统接收到的请求超出其处理能力时,主动拒绝一部分请求,以防止系统崩溃、或性能急剧下降。
实现方式:
- 限流(Rate Limiting): 限制单位时间内接收的请求数量。常用的算法有令牌桶算法、漏桶算法…等。
- 排队(Queueing): 将请求放入队列中,按照一定的策略进行处理。但队列长度有限,超过队列长度的请求会被拒绝。
- 熔断(Circuit Breaker): 当某个服务或依赖出现故障时,快速切断对该服务或依赖的调用,防止故障蔓延。
- 降级(Degradation): 关闭一些非核心功能,释放系统资源,以保证核心功能的正常运行。
监控与告警
使用Prometheus、Zabbix等监控工具,对系统进行全面的监控,并设置告警规则,及时发现和处理故障。
比如:
Prometheus + Grafana
Prometheus 负:责采集和存储指标,Grafana 进行可视化展示,支持灵活的查询和告警规则设置。
Zabbix
适用于全面监控,包括:硬件、网络和应用服务…等等。
ELK Stack
ELK Stack (Elasticsearch, Logstash, Kibana): 用于日志收集、分析、和可视化。
自动化运维
使用Ansible、Chef、Puppet等自动化运维工具,实现自动化部署、配置和维护,减少人为错误,提高运维效率。
故障自动切换
当主服务器发生故障时,自动切换到备服务器,实现快速恢复。
心跳检测
定期检测主服务器状态,发现异常后触发切换。
工具:Keepalived、Pacemaker…等等。
漂移 IP (VIP)
主备服务器共用一个虚拟 IP,切换时动态转移 VIP。
主备数据同步
保证主备切换时数据的一致性和完整性,比如:数据库主从复制(如 MySQL 主从同步)。
mikechen睿哥
mikechen睿哥,十余年BAT架构经验,资深技术专家,就职于阿里、淘宝、百度等一线互联网大厂。
关注「mikechen」公众号,获取更多技术干货!
后台回复【面试】即可获取《史上最全阿里Java面试题总结》,后台回复【架构】,即可获取《阿里架构师进阶专题全部合集》