史上最全负载均衡原理图文详解

为什么需要负载均衡

当系统面临大量用户访问,负载过高的时候,通常会使用增加服务器数量来进行横向扩展,使用集群和负载均衡提高整个系统的处理能力。

从单机网站到分布式网站,很重要的区别是业务拆分和分布式部署,将应用拆分后,部署到不同的机器上,实现大规模分布式系统。

分布式和业务拆分解决了,从集中到分布的问题,但是每个部署的独立业务还存在单点的问题和访问统一入口问题,为解决单点故障,我们可以采取冗余的方式,将相同的应用部署到多台机器上。

解决访问统一入口问题,我们可以在集群前面增加负载均衡设备,实现流量分发。史上最全负载均衡原理图文详解-mikechen

负载均衡的作用

史上最全负载均衡原理图文详解-mikechen

1.解决并发压力

提高应用处理性能,增加吞吐量,加强网络处理能力。

2.实现高可用

提供故障转移,实现整个应用的高可用。

3.实现扩展性

通过添加或减少服务器数量,提供网站伸缩性扩展性。

4.实现安全防护

负载均衡设备上做一些过滤,黑白名单等处理。

 

负载均衡的原理

系统的扩展可分为纵向(垂直)扩展和横向(水平)扩展。

纵向扩展,是从单机的角度通过增加硬件处理能力,比如CPU处理能力,内存容量,磁盘等方面,实现服务器处理能力的提升,不能满足大型分布式系统(网站),大流量,高并发,海量数据的问题。

因此需要采用横向扩展的方式,通过添加机器来满足大型网站服务的处理能力。

比如:一台机器不能满足,则增加两台或者多台机器,共同承担访问压力。这就是典型的集群和负载均衡架构:如下图:

史上最全负载均衡原理图文详解-mikechen
  • 应用集群:将同一应用部署到多台机器上,组成处理集群,接收负载均衡设备分发的请求,进行处理,并返回相应数据。
  • 负载均衡设备:将用户访问的请求,根据负载均衡算法,分发到集群中的一台处理服务器。

 

负载均衡算法

1.轮循

史上最全负载均衡原理图文详解-mikechen

轮询很容易实现,将请求按顺序轮流分配到后台服务器上,均衡的对待每一台服务器,而不关心服务器实际的连接数和当前的系统负载。
适合场景:适合于应用服务器硬件都相同的情况。

2.加权轮循

史上最全负载均衡原理图文详解-mikechen
在轮询的基础上根据硬件配置不同,按权重分发到不同的服务器。
适合场景:跟配置高、负载低的机器分配更高的权重,使其能处理更多的请求,而性能低、负载高的机器,配置较低的权重,让其处理较少的请求。

3.随机

史上最全负载均衡原理图文详解-mikechen
通过系统随机函数,根据后台服务器列表的大小值来随机选取其中一台进行访问。

随着调用量的增大,客户端的请求可以被均匀地分派到所有的后端服务器上,其实际效果越来越接近于平均分配流量到后台的每一台服务器,也就是轮询法的效果。

4.最少连接

史上最全负载均衡原理图文详解-mikechen
记录每个服务器正在处理的请求数,把新的请求分发到最少连接的服务器上,因为要维护内部状态不推荐。

5.源地址散列

史上最全负载均衡原理图文详解-mikechen
根据服务消费者请求客户端的IP地址,通过哈希函数计算得到一个哈希值,将此哈希值和服务器列表的大小进行取模运算,得到的结果便是要访问的服务器地址的序号。

适合场景:根据请求的来源IP进行hash计算,同一IP地址的客户端,当后端服务器列表不变时,它每次都会映射到同一台后端服务器进行访问。

 

负载均衡的分类

史上最全负载均衡原理图文详解-mikechen

1.二层负载均衡(mac)

根据OSI模型分的二层负载,一般是用虚拟mac地址方式,外部对虚拟MAC地址请求,负载均衡接收后分配后端实际的MAC地址响应。
备注:MAC(Media Access Control Address)

2.三层负载均衡(ip)

一般采用虚拟IP地址方式,外部对虚拟的ip地址请求,负载均衡接收后分配后端实际的IP地址响应。

3.四层负载均衡(tcp)

四层的负载均衡在三层负载均衡的基础上,通过发布三层的IP地址(VIP),然后加四层的端口号,来决定哪些流量需要做负载均衡。

四层负载均衡在中间传输层执行,它处理消息的传递,但不考虑消息的内容,用ip+port接收请求,再转发到对应的机器。

四层负载均衡不理解应用协议,比如:

  • HTTP
  • FTP
  • MySQL等等

实现四层负载均衡的软件有:

  • F5:硬件负载均衡器,功能很好,但是成本很高。
  • lvs:重量级的四层负载软件
  • nginx:轻量级的四层负载软件,带缓存功能,正则表达式较灵活
  • haproxy:模拟四层转发,较灵活

4.七层负载均衡(http)

七层负载均衡不同于四层负载均衡,它在高级应用层上执行,会处理每个消息的实际内容。

所谓七层负载均衡,也称为“内容交换”,也就是主要通过报文中的真正有意义的应用层内容,决定最终选择的内部服务器。

七层负载均衡它可以根据消息内容(如URL)做出负载均衡决策,比如:对URL图片类的请求转发到特定的图片服务器。

实现七层负载均衡的软件有:

  • HAproxy:天生负载均衡技能,全面支持七层代理,会话保持,标记,路径转移;
  • Nginx:只在http协议和mail协议上功能比较好,性能与haproxy差不多;
  • apache:功能较差

总的来说,一般是LVS做4层负载,Nginx或者Haproxy做7层负载,性能上LVS>HA>Nginx,功能性和便利性上Nginx>HA>LVS。

作者简介

陈睿|mikechen,10年+大厂架构经验,就职于阿里巴巴、淘宝、百度等一线互联网大厂。

关注作者「mikechen」公众号,获取更多技术干货!

后台回复架构,即可获取《阿里架构师进阶专题全部合集》,后台回复面试即可获取《史上最全阿里Java面试题总结