doris基本操作,03-导入数据-Broker Load

简述

Broker load 是异步导入方式,支持的数据源取决于 Broker 进程支持的数据源。

因为 Doris 表里的数据是有序的,所以 Broker load 在导入数据的时是要利用doris 集群资源对数据进行排序,相对于 Spark load 来完成海量历史数据迁移,对 Doris 的集群资源占用要比较大,这种方式是在用户没有 Spark 这种计算资源的情况下使用,如果有 Spark 计算资源建议使用 Spark load。

用户需要通过 MySQL 协议 创建 Broker load 导入,并通过查看导入命令检查导入结果。

适用场景

源数据在 Broker 可以访问的存储系统中,如 HDFS。

数据量在 几十到百GB 级别。

操作:

导入文件user.csv的内容:

csv 复制代码
392456197008193000,张三,20,0,北京市,昌平区,回龙观,18589407692,1970-8-19,美食;篮球;足球,2021-8-6 9:44
267456198006210000,李四,25,1,河南省,郑州市,郑东新区,18681109672,1980-6-21,音乐;阅读;旅游,2019-4-7 9:14
892456199007203000,王五,24,1,湖北省,武汉市,汉阳区,18798009102,1990-7-20,写代码;读代码;算法,2021-6-8 7:34
492456198712198000,赵六,26,2,陕西省,西安市,莲湖区,18189189195,1987-12-19,购物;旅游,2021-1-9 19:15
392456197008193000,张三,20,0,北京市,昌平区,回龙观,18589407692,1970-8-19,美食;篮球;足球,2020-8-6 9:44
392456197008193000,张三,20,0,北京市,昌平区,回龙观,18589407692,1970-8-19,美食;篮球;足球,2019-8-6 9:44
shell 复制代码
# 把文件上传到hdfs
hadoop fs -mkdir /datas
hadoop fs -put user.csv /datas
shell 复制代码
# 执行导入
LOAD LABEL test_db.user_result # 这里的标签可以随便写,只要全局唯一即可
(
    DATA INFILE("hdfs://node01:8020/datas/user.csv")# 输入文件位置,这里是hdfs上的路径
    INTO TABLE `user_result` # 导入到的表
    COLUMNS TERMINATED BY "," # 字段分隔符
    FORMAT As "csv"
    (id, name, age, gender,province, city,region, phone, birthday, hobby, registe, r_date)
)
# broker名称,可以通过show borker查看,不能写错
WITH BROKER broker_10_20_30
(
    "username" = "",
    "password" = "",
    "fs.defaultFS" = "hdfs://my_ha",
    "dfs.nameservices" = "my_ha",
    "dfs.ha.namenodes.my_ha" = "my_namenode1, my_namenode2",
    # nameservices.namenodes,按顺序选择,第一个不工作一次往下找
    "dfs.namenode.rpc-address.my_ha.my_namenode1" = "nn1_host:rpc_port",
    "dfs.namenode.rpc-address.my_ha.my_namenode2" = "nn2_host:rpc_port",
    "dfs.client.failover.proxy.provider.my_ha" = "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
)
properties
(
	"max_filter_ratio"="0.00002" # 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。
)
sql 复制代码
# 查看导入
show load order by createtime desc \G
sql 复制代码
# 取消导入,根据label
cancel load from test_db where LABEL = "test_db.user_result";
相关推荐
SelectDB技术团队12 天前
ApacheCon Asia 2025 中国开源年度报告:Apache Doris 国内第一
开源·apache·数据库开发·doris·实时分析
纯洁的小魔鬼16 天前
Springboot 配置 doris 连接
spring boot·doris·连接池
linweidong18 天前
深入剖析 Spark Shuffle 机制:从原理到实战优化
大数据·分布式·spark·spark sql·数据开发·shuffle·数据倾斜
SelectDB技术团队1 个月前
森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
elasticsearch·阿里云·doris
天翼云开发者社区1 个月前
Doris-HDFS LOAD常见问题汇总(二)
大数据·doris
涤生大数据1 个月前
Apache Spark 4.0:将大数据分析提升到新的水平
数据分析·spark·apache·数据开发
袋鼠云数栈2 个月前
3节点开启大数据时代:EasyMR助力中小企业轻装上阵、国产转型
大数据·数据库·数据仓库·sql·数据开发·数据中台·袋鼠云
Faith_xzc2 个月前
Apache Doris FE 问题排查与故障分析全景指南
大数据·数据仓库·apache·doris
寂夜了无痕2 个月前
doris manager 安装部署 、管理已有doris集群、使用studio进行SQL查询
doris·doris manager·doris studio
江畔独步2 个月前
Doris与DS结合实现MySQL侧的Upsert功能
数据仓库·mysql·doris·upsert