一:数据量大了以后,单机解析或者生成文件的效率就很低,需要通过集群处理
- 机构过来的文件:我们先对文件进行分片,在利用集群集群处理分片文件。
- 给机构文件:分库分表数据,每个分表生成一个分片文件,最终合成一个完整文件。
二:分布式下文件处理需要分布式的文件存储
- 目前组件内部实现了NAS/OSS分布式的文件存储操作实现
文件大了单机处理就很慢, 数据库解决单机瓶颈方式是分库分表, 文件也一样需要将文件拆分,利用集群机器并发处理。
- 导入类文件一般会先对文件按大小切分,生成分片任务。
- 导出类文件一般会根据分库分表位,生成分片任务。