[bug] StarRocks borker load意向之外的bug

意向之外,又清理之中

背景:

StarRocks各方面碾压相同类型的数据库,最近我们要从生成HIVE导历史数据(ORC格式)到StarRocks,前期小测一下,在测试是没问题,上生产先导2个月的数据,大概10T,但是在测试过程中,发现了一个问题。

sql 复制代码
LOAD LABEL test_db.label14
(
    DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starrocks/data/input/example14.orc")
    INTO TABLE table14
    FORMAT AS "orc"
    (col1, col2, col3)
)
WITH BROKER
(
    "username" = "<hdfs_username>",
    "password" = "<hdfs_password>"
);

问题:

shell 复制代码
type:LOAD_RUN_FAIL; msg:Column: s_customer is not found in file: hdfs://xxx.xx.xx.x:9000/user/starrocks/data/input/example14.orc

很明显的问题,在源数据文件中没找到这个字段,想了想,历史数据以orc格式存在HDFS,orc列式存储,如果表结构修改,块里面的数据schema是不变化的,当StarRocks解析源文件块的时候,是找不到该字段的,自然要报错了;

而我们的业务对表结构是按需增加表字段,所以这个问题不可避免。

如何解决?

当用户有新增字段操作的时候,实际上我们维护了字段和表结构关系一张表,每增加一个或者多个字段都有相应的创建时间,那么我们用broker load导入数据的时候需要查一次数据库,这样的话关系就建立起来了,问题也解决了。

暂时没找到可以通过设置StarRocks参数来避免遇到的这个问题的。如果有请告诉我,谢谢。

相关推荐
不剪发的Tony老师10 小时前
StarRocks:一款开源的高性能分析型数据仓库
starrocks·数据仓库
StarRocks_labs17 小时前
StarRocks Community Monthly Newsletter (Mar)
starrocks·数据仓库·数据分析·olap·湖仓一体
镜舟科技4 天前
NoSQL 与 NewSQL 全面对比:如何选择适合你的数据库方案?
数据库·starrocks·nosql·newsql·技术架构·实时数据分析
镜舟科技6 天前
镜舟科技助力某大型电网企业破解数据架构升级难题,打造国产化湖仓标杆
大数据·starrocks·数据分析·开源·lakehouse·分析型数据库·湖仓
Tapdata 钛铂数据6 天前
TapData 与 StarRocks 完成兼容性互认证,携手共建实时数据智能生态,联合打造端到端全链路实时数仓解决方案
starrocks·实时数仓·数据集成·实时数据平台
鸿乃江边鸟9 天前
Starrocks的Bitmap索引和Bloom filter索引以及全局字典
大数据·starrocks·sql
StarRocks_labs13 天前
StarRocks 助力首汽约车精细化运营
大数据·数据库·starrocks·spark·数据查询·存算分离
不确定性确定你我14 天前
使用 kind 创建 K8s 集群并部署 StarRocks 的完整指南
starrocks·云原生·kubernetes·部署·kind
Double@加贝21 天前
StarRocks的执行计划和Profile
大数据·starrocks
ssxueyi21 天前
StarRocks 部署:依赖环境
服务器·数据库·starrocks·php