Kafka如何实现高并发消息处理？

Kafka如何实现高并发消息处理？-mikechen

Kafka是实现高并发架构的核心技术，也是大型架构的必备技能，今天就重点谈谈Kafka如何实现高并发@mikechen

分布式架构

Kafka 是一个分布式的消息系统，消息存储、和处理分布在多个节点上。

通过分布式架构、和集群的方式，可以极大的提升并发能力。

比如：Topic 分区 (Partitioning)，每个 Topic 可以分为多个分区（Partition），消息会被分散存储在不同的分区中。

Kafka如何实现高并发消息处理？-mikechen

每个分区可以独立地读写操作，多个分区之间可以并行处理，从而实现高并发。

并且，Kafka 集群包含多个 Broker，每个 Broker 负责管理部分分区的数据。

增加 Broker 数量，可以提高 Kafka 的吞吐量、和并发能力。

磁盘顺序写

顺序写：是Kafka实现高吞吐量、高并发的关键技术。

Kafka通过将消息，追加到日志文件末尾（append）的方式，写入到磁盘上的日志文件末尾，而不是随机地在磁盘上读写数据。

Kafka这种方式，极大地减少了磁盘寻道的时间，提高了I/O效率。

为什么要采用“顺序写”这种方式呢？

下面我接着谈：当生产者发送消息到Kafka时，Kafka会将消息追加到相应分区的当前活跃的分段文件末尾。

这个过程是顺序的，不需要在磁盘上进行大量的寻道操作。

磁盘寻道：是磁盘I/O中最耗时的操作之一，顺序写可以最大限度地减少磁盘寻道次数，因为磁头只需要沿着磁盘的轨道顺序移动即可。

并且，顺序写可以充分利用磁盘的带宽，提高数据写入的速度，从而提高Kafka的吞吐量。

Kafka如何实现高并发消息处理？-mikechen

所以，Kafka采用”顺序写“，来提升吞吐量、和并发量，这是一大关键点。

零拷贝

Kafka在消息传输过程中，使用了零拷贝技术。

在传统的数据传输中（没有零拷贝的情况下），数据需要在内核空间、和用户空间之间来回传递。

通常会经历以下几个步骤，如下图所示：

Kafka如何实现高并发消息处理？-mikechen

这种数据传输模式需要 4 次数据拷贝、和 2 次上下文切换，既消耗了 CPU，又占用了内存带宽。

采用零拷贝，可以减少了内核空间、和用户空间之间的数据拷贝次数，从而提高了传输效率。

除此之外，Kafka通过结合高效的存储结构、分区机制、生产者和消费者的…优化等等，从而，实现了高并发的消息处理能力。

大厂技术架构面试专题