【starrocks学习】之将hive表数据同步到starrocks

目录

一、确认环境

二、创建StarRocks表

三、导出Hive表数据

四、将数据导入StarRocks

[1.使用Broker Load](#1.使用Broker Load)

[2.使用Stream Load](#2.使用Stream Load)

五、验证数据

六、注意事项


一、确认环境

确保Hive和StarRocks都已正确安装并运行。

二、创建StarRocks表

在StarRocks中创建与Hive表结构一致的表。

sql 复制代码
CREATE TABLE starrocks_table (
    column1 INT,
    column2 STRING,
    ...
) ENGINE=OLAP
DUPLICATE KEY(column1)
DISTRIBUTED BY HASH(column1) BUCKETS 10;

三、导出Hive表数据

将Hive表数据导出为StarRocks支持的格式,如Parquet或ORC。

sql 复制代码
INSERT OVERWRITE DIRECTORY '/path/to/export'
STORED AS PARQUET
SELECT * FROM hive_table;

四、将数据导入StarRocks

使用StarRocks的Broker LoadStream Load将数据导入。

1.使用Broker Load

sql 复制代码
LOAD LABEL label_name
(
    DATA INFILE("hdfs://path/to/export/*")
    INTO TABLE starrocks_table
)
WITH BROKER "broker_name"
(
    "username"="hdfs_user",
    "password"="hdfs_password"
)
PROPERTIES
(
    "timeout" = "3600"
);

2.使用Stream Load

bash 复制代码
curl --location-trusted -u user:password -T /path/to/export/file -XPUT http://starrocks_fe_host:http_port/api/starrocks_db/starrocks_table/_stream_load

五、验证数据

查询StarRocks表,确认数据已正确导入。

bash 复制代码
SELECT * FROM starrocks_table LIMIT 10;
SELECT count(*) FROM starrocks_table ;

六、注意事项

  • 数据类型:确保Hive和StarRocks表的数据类型兼容。

  • 性能优化:根据数据量调整导入参数,如并发度和超时时间。

  • 权限:确保有足够的权限访问HDFS和StarRocks。

通过这些步骤,可以将Hive表数据同步到StarRocks。

相关推荐
qq_4084133914 分钟前
spark 执行 hive sql数据丢失
hive·sql·spark
陳麦冬19 分钟前
深入理解指针(二)
c语言·学习
普宁彭于晏2 小时前
CSS3相关知识点
前端·css·笔记·学习·css3
fen_fen3 小时前
学习笔记(25):线性代数,矩阵-矩阵乘法原理
笔记·学习·线性代数
TDengine (老段)3 小时前
TDengine 替换 Hadoop,彻底解决数据丢失问题 !
大数据·数据库·hadoop·物联网·时序数据库·tdengine·涛思数据
xiaoxiaoxiaolll5 小时前
从理论崩塌到新路径:捷克科学院APL Photonics论文重构涡旋光技术边界
学习
抠脚学代码6 小时前
Ubuntu18.6 学习QT问题记录以及虚拟机安装Ubuntu后的设置
qt·学习·ubuntu
萌新小码农‍13 小时前
Spring框架学习day7--SpringWeb学习(概念与搭建配置)
学习·spring·状态模式
蓝婷儿13 小时前
6个月Python学习计划 Day 15 - 函数式编程、高阶函数、生成器/迭代器
开发语言·python·学习
行云流水剑13 小时前
【学习记录】深入解析 AI 交互中的五大核心概念:Prompt、Agent、MCP、Function Calling 与 Tools
人工智能·学习·交互