如何学习一个大型分布式Java项目

前言

很多同学在没有实习经验的时候看到一个多模块分布式项目总是有一种老虎吃天的无力感，就像我刚毕业去到公司接触项目的时候一样，模块多的夸张，想学都不知道从哪开始学，那么我们拿到一份代码后如何从头开始学习一个新项目呢。

这里我们借助开源项目 $D a t a l i n k X DatalinkX$ DatalinkX举例，开源项目都会有比较完善的readme，如果要学习开源项目一定要先仔细看一遍readme描述，会帮助你对这个服务有一个大体的认知。

启服务动

拿到开源代码后先给导入到IDEA里，先解析pom并下载依赖，如果编译器里出现红线，先解决红线问题。(很多同学在这一步就望而却步了，其实这一步往往都是环境问题导致的，属于最恶心的一步。)

项目加载正常之后，冤有头债有主，先找有哪些启动类 ，换句话说先看哪些模块是作为web服务启动，现在的JavaWeb项目基本都是SpringBoot称霸武林，全局搜(ctronl + shit + f) @SpringBootApplication，这里插播一个面试题，大家都在心里默默回答一遍SpringBoot的启动流程，不会的先别看了，你应该在面试中到不了问项目的地步........

搜索完你会发现，在DatalinkX中有两个模块作为服务模块，datalink-server 与datalinkx-job ，我们打开datalinkx-server的目录就会发现这是一个标准的web服务了，标准的四层模型，Controller、Service、Dao(repository)、Model(bean)

如果你看了readme就会发现，这块服务用来跟业务数据库交互的服务，先有一个大体概念。

再来看另一个启动模块datalinkx-job，你会发现这个模块跟web服务的四层结构没有一点关系。可能会疑惑没有controller怎么向外暴露入口呢，这时候再结合readme的描述发现使用了xxl-job，去看几篇xxl-job组件的文章就会反应过来，datalinkx-job是作为一个执行器，通过netty的方式暴露接口给xxl-job调度。

请求追踪

整体对系统有一个大体的业务认知，基于flink的异构数据源流转系统，核心业务就是用来流转数据的，什么是流转数据，说白了就是把A数据源的a库a1表的数据同步流转到B数据源的b库b1表，A和B两个数据源是不同架构的数据源，可以是mysql -> oracle，也可以是ES -> redis。

对系统有了大概了解之后根据readme提供的线索配置好yml配置不出意外的话就可以启动起来，选择最简单的业务场景进行debug，创建数据源，通过在DsController里添加端点，一点一点分析调试业务代码。

在调试中会发现datalinkx-server使用了其他子模块中的方法，在这个过程中不断扩展对整个服务的业务认知。

组件分析

很多同学看到服务中使用了各种中间件会心生畏惧，认为没有接触过组件，不知道怎么学或者认为学起来非常麻烦。这块我的建议是先知道这个组件是干什么的，能解决什么问题，再结合业务场景来思考为什么要用这个中间件，用这个中间件解决了什么问题。

做到这一步一个项目基本上已经吃的差不多了，应付别人的提问没啥问题，剩下的就是加分项了。

架构分析

不想当架构师的工程师不是好工程师，虽然听起来挺冠冕堂皇，哥们就是来挣钱的，架构不架构个锤子，要不是想混口饭吃谁研究这玩意。

但是不吹还不行，现在都喜欢问点分布式的东西，仔细分析下为什么server和job要分成两个服务启动呢，我们可以把它类比成传统分布式架构master + worker，在部署上我们可以横向扩展job模块来提升系统的性能。

这些只是冰山一角，还有更多优秀的设计藏在代码里等你发掘。感兴趣的话可以加入交流群一起学习，如果感觉很吃力的话可以酌情考虑购买文档加入股东委员会。会有独立的股东群里交流项目细节、分享内推岗位、共享大厂笔试面试经验等。

Gitee: $h t t p s : / / g i t e e . c o m / a t u p t o w n / d a t a l i n k x https://gitee.com/atuptown/datalinkx$ https://gitee.com/atuptown/datalinkx

GieHub: $h t t p s : / / g i t h u b . c o m / S p l i t f i r e U p t o w n / d a t a l i n k x https://github.com/SplitfireUptown/datalinkx$ https://github.com/SplitfireUptown/datalinkx