OPPO自研DataFlow架构与实践

1. 背景

OPPO很多线上业务每天会产生海量数据,如日志数据、监控数据、调用链数据。我们需要把这些数据进行归类、聚合、过滤、存储。例如将不同的日志数据写入到不同的存储系统中。如果这些日志数据同步写入到数据库中,则会降低服务的性能。如果采用异步发送,先将数据写入本地缓存队列,然后再启动一个线程从队列中获取数据,写入到数据库中,这样处理不会将影响对外服务的性能,但是如果数据量过大时容易造成进程OOM,重启时则数据丢失。

DataFlow是由OPPO互联网自研的一款高性能的数据流采集、聚合和传输框架,它通过将日志写入问题件,同时利用文件系统的顺序写入、内存缓存和内存映射文件技术、预写日志WAL等方式来提高写入的效率。

2、架构

DataEvent

DataEvent是DataFlow端到端传输的基本单元,它由body和headers信息构成,由K-V构成的Map信息,主要用于数据信息的传递。

复制代码
private Map<String, String> headers = new HashMap<>();private List<T> body = new ArrayList<>();

Source

它是数据源,从特定通道(如Http)接受数据,把消息路由分发到Channel中。开发者通过继承SourceBase实现Source的功能。

Channel

它保存接收到的DataEvent直到它们被所有Sink节点消费完成,Channel传输时需要序列化及反序列化,默认采用的是Kryo,开发者可以根据实际情况使用其它序列化方式,如protobuf。开发者通过继承ChannelBase实现Channel的功能以及序列化和反序列化。

Sink

它主要从Channel中获取数据,将数据传输到下一个目的地,如Elasticsearch、RocksDB。一个Sink有且只有一个Channel。开发者通过继承SinkBase实现Sink的功能。

用户在使用DataFlow时,需要自己实现继承一个SourceBase的类,调用里面的put方法将DataEvent写入到Channel中。Channel默认采用系统自带的FileChannel,将用户调用的put方法写入的数据存储到本地磁盘中。然后用户只需要调用task方法就可以从Channel中获取数据,进行数据的分析、存储。

3、FileChannel

FileChannel写流程

FileChanel在运行之前,需要配置两个文件夹,一个是数据文件夹,用来存放用户写入的数据和数据的索引信息;另一个是checkpoint文件夹,用来定时持久化元数据信息。

用户写数据之前,需要开启一个事务,事务号由每一个channel来产生,类似于雪花算法。

相关推荐
隔窗听雨眠25 分钟前
大模型加爬虫上篇:技术融合与架构革新
爬虫·架构
Vergelight1 小时前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
Database_Cool_2 小时前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
绿算技术2 小时前
Mooncake 与绿算ForinnBase GroundPool如何联手打破推理僵局?
科技·算法·架构
阿米亚波2 小时前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
taocarts_bidfans4 小时前
反向海淘跨境缓存架构优化:taocarts Redis分层缓存实战技术
redis·缓存·架构·反向海淘·taocarts
by————组态4 小时前
Ricon组态系统 - 新一代Web可视化组态平台
前端·后端·物联网·架构·组态·组态软件
@insist1235 小时前
系统架构设计师-5G 技术、冗余设计与分层架构
5g·架构·系统架构·软考·系统架构设计师·软件水平考试
yspwf5 小时前
NestJS 配置管理完整方案
后端·架构·node.js
网络点点滴5 小时前
Node.js事件驱动架构
架构·node.js