Java分布式是大型网站必备技术,Java分布式技术会涉及到分布式架构、分布式计算等内容,下面重点详解Java分布式。
分布式计算框架
例如Hadoop、Spark、Flink等,用于实现大数据处理和分布式计算。
1.Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎,设计用于大型分布式数据处理、数据中心或云计算。
Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因而适用于离线批处理的应用场景。
2.Flink
Flink是Apache Apache的一个开源的流处理框架,用于在无边界和有边界数据流上进行有状态的计算。
在Flink之前主流的计算框架以Hadoop和Spark占据主流,Hadoop是第一代大数据计算框架,而其后的Spark则是在Hadoop的基础上进行内存计算,实现了计算性能上的大大提升。
分布式消息中间件
例如:Kafka、RocketMQ、RabbitMQ等,用于实现异步消息传输和解耦。
1.Kafka
Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,主要应用如下场景:
1).日志收集
一个公司可以用Kafka可以收集各种服务的log。
2).消息系统
解耦和生产者和消费者,这也是目前使用比较多的场景,相当于起了一个缓存消息的作用。
3).用户活动跟踪
Kafka经常被用来记录web用户,或者app用户的各种活动,如浏览网页、搜索、点击等活动。
4).运营指标
Kafka也经常用来记录运营监控数据,包括:收集各种分布式应用的数据,生产各种操作的集中反馈,比如:报警和报告。
2.RocketMQ
RocketMQ是阿里研发的一个队列模型的消息中间件,后开源给apache基金会成为了apache的顶级开源项目。
RocketMQ架构,如下图所示:
RocketMQ架构:主要由NameServer、Broker、Producer以及Consumer四部分构成。
主要应用于:秒杀削峰填谷、异步解耦等场景。
3.RabbitMQ
RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多种客户端。
RabbitMQ架构,如下图所示:
分布式数据库
例如:MySQL Cluster、Cassandra等,用于实现数据的高可用性、容错性和可扩展性。
分布式缓存
例如Redis、Memcached等,用于提高系统的性能和扩展性。
Redis 是一个开源的,使用C语言编写的,支持网络交互的、可基于内存也可持久化的Key-Value数据库存储系统。
更加详细的Redis介绍,请查看:Redis教程(万字图文全面详解)
分布式RPC框架
例如Dubbo、gRPC等,用于实现分布式服务调用和远程过程调用。
Dubbo是一个Java RPC框架,致力于分布式、高性能、透明化的远程服务调用方案。
1)服务提供者(Server)
对外提供后台服务,将自己的服务信息,注册到注册中心
2)注册中心(Registry)
用于服务端注册远程服务以及客户端发现服务。
目前主要的注册中心可以借由 zookeeper,eureka,consul,etcd 等开源框架实现。
比如:阿里的Dubbo就是采用zookeeper实现注册中心。
3)服务消费者(Client)
从注册中心获取远程服务的注册信息,然后进行远程过程调用。
Dubbo核心功能,主要提供了:远程方法调用、智能容错和负载均衡、提供服务自动注册、自动发现等高效服务治理功能。
更加详细的Dubbo介绍,请查看:Dubbo最全详解(万字图文教程)。
分布式事务
分布式事务是指涉及多个计算机,或进程的一系列操作,这些操作需要保证在所有节点上的一致性和原子性。
如下图所示:
例如XA事务、TCC事务等,用于保证分布式环境下的数据一致性。
更加详细的分布式事务,请查看:分布式事务详解(四种分布式事务方案)。
在Java分布式应用中,需要考虑多个节点之间的通信和协作,通常需要使用网络编程和多线程编程技术来实现。
同时在Java分布式环境下,还需要考虑的数据安全和一致性问题,例如分布式锁、数据同步等。
mikechen睿哥
mikechen睿哥,十余年BAT架构经验,资深技术专家,就职于阿里、淘宝、百度等一线互联网大厂。
关注「mikechen」公众号,获取更多技术干货!
后台回复【面试】即可获取《史上最全阿里Java面试题总结》,后台回复【架构】,即可获取《阿里架构师进阶专题全部合集》