Kafka工作原理详解(看这篇就够了)

Kafka工作原理详解(看这篇就够了)-mikechen

Kafka简介

Kafka工作原理详解(看这篇就够了)-mikechen

Apache Kafka是分布式发布-订阅消息系统,它最初由LinkedIn公司开发,之后成为Apache顶级项目。

Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,主要应用场景有:日志收集系统和消息系统。

 

Kafka的特性

1.高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒。

2.可扩展性:kafka集群支持热扩展;

3.持久性&可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失;

4.高并发:支持数千个客户端同时读写。

 

Kafka架构

它的架构包括以下组件:

Kafka工作原理详解(看这篇就够了)-mikechen

1.话题(Topic)

消息的类别,主要用于对消息进行逻辑上的区分,每条发送到Kafka集群的消息都需要有一个指定的Topic,消费者根据Topic对指定的消息进行消费。

Kafka的数据就保存在Topic上,在每个 broker 上都可以创建多个 Topic。

 

2.分区 (Partition)

Topic的分区,每个 topic 可以有多个分区,分区的作用是做负载,提高 kafka 的吞吐量。

 

3.生产者(Producer)

Producer 即消息的生产者,负责往Kafka集群中发送消息,是消息的入口。

 

4.服务代理(Broker)

Kafka集群中的服务实例,也称之为节点,每个Kafka集群包含一个或者多个Broker。

简单的理解就是一台 Kafka服务器,Kafka Ccluster表示集群的意思,也被称为代理(Broker)。

 

5.消费者(Consumer)

消息的消费者,主动从Kafka集群中拉取消息,比如:从Broker拉数据,从而消费这些已发布的消息。

 

Kafka工作原理

1.消息生产

我们将消息的发布(publish)称作 producer。

2.消费消费

将消息的订阅(subscribe)表述为 consumer。

 

3.broker(代理)

将中间的存储阵列称作 broker(代理),这样就可以大致描绘出这样一个场面:

Kafka工作原理详解(看这篇就够了)-mikechen

上图基本都是目前主流消息中间件的原型,可以很清楚的看见三者的关系。

生产者将数据生产出来,交给 broker 进行存储,如下图所示:

Kafka工作原理详解(看这篇就够了)-mikechen

消费者需要消费数据了,就从broker中去拿出数据来,然后完成一系列对数据的处理操作。

备注:图上有个细节需要注意:producer 到 broker 的过程是 push也就是有数据就推送到 broker,而 consumer 到 broker 的过程是 pull是通过 consumer 主动去拉数据的

多个 broker 协同合作,producer 和 consumer 部署在各个业务逻辑中被频繁的调用,三者通过 zookeeper管理协调请求和转发。

Kafka使用zookeeper作为其分布式协调框架,很好的将消息生产、消息存储、消息消费的过程结合在一起。

如下图所示:

Kafka工作原理详解(看这篇就够了)-mikechen

这样一个高性能的分布式消息发布订阅系统就完成了。

Kafka的应用场景

Kafka工作原理详解(看这篇就够了)-mikechen

1.日志收集

一个公司可以用Kafka可以收集各种服务的log。

2.消息系统

解耦和生产者和消费者,这也是目前使用比较多的场景,相当于起了一个缓存消息的作用。

 

3.用户活动跟踪

Kafka经常被用来记录web用户,或者app用户的各种活动,如浏览网页、搜索、点击等活动。

 

4.运营指标

Kafka也经常用来记录运营监控数据,包括:收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。

 

5.流式处理

比如spark streaming和storm等。

作者简介

陈睿|mikechen,10年+大厂架构经验,BAT资深面试官,就职于阿里巴巴、淘宝、百度等一线互联网大厂。

👇阅读更多mikechen架构文章👇

阿里架构 |双11秒杀 |分布式架构 |负载均衡 |单点登录 |微服务 |云原生 |高并发 |架构师

以上

关注作者「mikechen」公众号,获取更多技术干货!

后台回复架构,即可获取《阿里架构师进阶专题全部合集》,后台回复面试即可获取《史上最全阿里Java面试题总结

评论交流
    说说你的看法