最近参加了京东大数据的面试,整个过程涵盖了项目细节、基础八股文以及手撕算法。本文将这次面试中遇到的9个核心问题进行了复盘和深度整理,特别是关于RabbitMQ的消息积压处理以及MySQL的RR隔离级别实现。
base:北京
**1. 项目问题:**你的项目中提到了网页数据爬取,代码中用了什么框架/工具?
爬取主要针对一些静态代码资源及开发者工具能够看见的接口返回JSON,对于前者,简单的静态页面,使用了 HttpClient / OkHttp 发送HTTP请求,结合 Jsoup 解析HTML DOM元素;后者则寻找接口所需参数,如csrfToken, cookie 参与接口调用。
**2. 项目问题:**为什么选用 RabbitMQ,有没有遇到消息积压问题,怎么解决,RabbitMQ 内部数据分片了吗?
相比于Kafka的大吞吐量日志处理,我们业务需要的是可靠的、低延迟的消息传递 ,且涉及复杂的路由逻辑。RabbitMQ基于Erlang,对AMQP协议支持好,社区活跃,且提供了消息确认(ACK)、持久化机制,适合我们的项目需求。
RabbitMQ 本身不进行类似于数据库的分库分表或Kafka的Partition分区。它的数据存储要么在内存中,要么在磁盘上。严格来说,它没有做数据分片,而是通过镜像队列做数据冗余来保证高可用。
3. 八股问题:线程模型有哪几种?线程池?
4. 八股问题:你刚刚提到的 NIO,AIO 是什么?
5. 八股问题:MySQL 的事务隔离级别?RR 具体是怎么实现的?
6. 项目+八股+发散问题:你们项目中 Redis 是怎么用的?封装的什么数据?是用SpringBoot 封装好的 bootstrap 吗?其底层?或者说让你自己做一个 bootstrap 你有思路吗?
7. 算法题1:字符串的最大不重复子串(力扣原题)
8. 算法题2:手写生产者/消费者
9. SQL题:有两张表 table_a(id, name, sd_id) 与 table_b(sd_id, ...),其中 sd_id 在 table_b 中是主键,查询 sd_id 在 table_a 中出现而在 table_b 不存在的值。