rdf-file:分布式环境下的文件处理

一:数据量大了以后,单机解析或者生成文件的效率就很低,需要通过集群处理

  • 机构过来的文件:我们先对文件进行分片,在利用集群集群处理分片文件。
  • 给机构文件:分库分表数据,每个分表生成一个分片文件,最终合成一个完整文件。

二:分布式下文件处理需要分布式的文件存储

  • 目前组件内部实现了NAS/OSS分布式的文件存储操作实现

文件大了单机处理就很慢, 数据库解决单机瓶颈方式是分库分表, 文件也一样需要将文件拆分,利用集群机器并发处理。

  • 导入类文件一般会先对文件按大小切分,生成分片任务。
  • 导出类文件一般会根据分库分表位,生成分片任务。
相关推荐
爱浦路 IPLOOK7 分钟前
分布式UPF架构:让5G网络更灵活、更低时延
分布式·5g·架构
juniperhan1 小时前
Flink 系列第15篇:Flink 侧输出(Side Output)详解及实践
java·大数据·分布式·flink
卷毛的技术笔记2 小时前
从零到一:深入浅出分布式锁原理与Spring Boot实战(Redis + ZooKeeper)
java·spring boot·redis·分布式·后端·面试·java-zookeeper
frankfishinwater2 小时前
Kafka 代码架构分析
分布式·架构·kafka
啾啾Fun2 小时前
工作流(4)——分布式与工作流
分布式
lifewange2 小时前
Hadoop 完整入门详解
大数据·hadoop·分布式
旷世奇才李先生2 小时前
Redis 7\.x实战:缓存设计与分布式锁实现
redis·分布式·缓存
Juicedata5 小时前
分布式架构下配额设计:JuiceFS 的实现与典型案例
分布式·架构
曾阿伦17 小时前
Spark flatMapToPair算子卡顿优化
大数据·分布式·spark