rdf-file:分布式环境下的文件处理

一:数据量大了以后,单机解析或者生成文件的效率就很低,需要通过集群处理

  • 机构过来的文件:我们先对文件进行分片,在利用集群集群处理分片文件。
  • 给机构文件:分库分表数据,每个分表生成一个分片文件,最终合成一个完整文件。

二:分布式下文件处理需要分布式的文件存储

  • 目前组件内部实现了NAS/OSS分布式的文件存储操作实现

文件大了单机处理就很慢, 数据库解决单机瓶颈方式是分库分表, 文件也一样需要将文件拆分,利用集群机器并发处理。

  • 导入类文件一般会先对文件按大小切分,生成分片任务。
  • 导出类文件一般会根据分库分表位,生成分片任务。
相关推荐
上上迁1 小时前
分布式生成 ID 策略的演进和最佳实践,含springBoot 实现(Java版本)
java·spring boot·分布式
长路 ㅤ   1 小时前
Java后端技术博客汇总文档
分布式·算法·技术分享·编程学习·java后端
暗影八度3 小时前
Spark流水线数据质量检查组件
大数据·分布式·spark
CodeWithMe4 小时前
【Note】《Kafka: The Definitive Guide》 第5章:深入 Kafka 内部结构,理解分布式日志系统的核心奥秘
分布式·kafka
CodeWithMe4 小时前
【Note】《Kafka: The Definitive Guide》第一章:Meet Kafka
分布式·kafka
CodeWithMe4 小时前
【Note】《Kafka: The Definitive Guide》 第二章 Installing Kafka:Kafka 安装与运行
分布式·kafka
CodeWithMe9 小时前
【Note】《Kafka: The Definitive Guide》 第8章: Cross-Cluster Data Mirroring
分布式·kafka
Alaia.9 小时前
【kafka 3.9.1】单机版集群部署并配置kafka的SASL认证
分布式·kafka
勤奋的知更鸟10 小时前
Kettle + 大数据实战:从数据采集到分布式处理的完整流程指南
大数据·分布式