【starrocks学习】之将hive表数据同步到starrocks

目录

一、确认环境

二、创建StarRocks表

三、导出Hive表数据

四、将数据导入StarRocks

[1.使用Broker Load](#1.使用Broker Load)

[2.使用Stream Load](#2.使用Stream Load)

五、验证数据

六、注意事项


一、确认环境

确保Hive和StarRocks都已正确安装并运行。

二、创建StarRocks表

在StarRocks中创建与Hive表结构一致的表。

sql 复制代码
CREATE TABLE starrocks_table (
    column1 INT,
    column2 STRING,
    ...
) ENGINE=OLAP
DUPLICATE KEY(column1)
DISTRIBUTED BY HASH(column1) BUCKETS 10;

三、导出Hive表数据

将Hive表数据导出为StarRocks支持的格式,如Parquet或ORC。

sql 复制代码
INSERT OVERWRITE DIRECTORY '/path/to/export'
STORED AS PARQUET
SELECT * FROM hive_table;

四、将数据导入StarRocks

使用StarRocks的Broker LoadStream Load将数据导入。

1.使用Broker Load

sql 复制代码
LOAD LABEL label_name
(
    DATA INFILE("hdfs://path/to/export/*")
    INTO TABLE starrocks_table
)
WITH BROKER "broker_name"
(
    "username"="hdfs_user",
    "password"="hdfs_password"
)
PROPERTIES
(
    "timeout" = "3600"
);

2.使用Stream Load

bash 复制代码
curl --location-trusted -u user:password -T /path/to/export/file -XPUT http://starrocks_fe_host:http_port/api/starrocks_db/starrocks_table/_stream_load

五、验证数据

查询StarRocks表,确认数据已正确导入。

bash 复制代码
SELECT * FROM starrocks_table LIMIT 10;
SELECT count(*) FROM starrocks_table ;

六、注意事项

  • 数据类型:确保Hive和StarRocks表的数据类型兼容。

  • 性能优化:根据数据量调整导入参数,如并发度和超时时间。

  • 权限:确保有足够的权限访问HDFS和StarRocks。

通过这些步骤,可以将Hive表数据同步到StarRocks。

相关推荐
Mr.朱鹏7 分钟前
大模型入门学习路径(Java开发者版)下
java·python·学习·微服务·langchain·大模型·llm
YJlio1 小时前
ProcessExplorer_17.09_x64-Chs 新版本升级:我看到的区别与优势(含升级思路与注意点)
人工智能·笔记·学习
-木槿昔年-2 小时前
【米尔-安路MYD-YM90X创意秀】飞龙派学习和PS串口实践
学习·fpga开发
车载测试工程师2 小时前
CAPL学习-SOME/IP交互层-符号数据库访问类函数
学习·tcp/ip·以太网·capl·canoe
暗然而日章3 小时前
C++基础:Stanford CS106L学习笔记 13 特殊成员函数(SMFs)
c++·笔记·学习
小智RE0-走在路上3 小时前
Python学习笔记(6)--列表,元组,字符串,序列切片
笔记·python·学习
d111111111d3 小时前
什么是内存对齐?在STM32上面如何通过编辑器指令来实现内存对齐。
笔记·stm32·单片机·嵌入式硬件·学习·编辑器
蒙奇D索大4 小时前
【数据结构】考研408 | 伪随机探测与双重散列精讲:散列的艺术与均衡之道
数据结构·笔记·学习·考研
舞动青春884 小时前
Ubuntu安装QEMU过程及问题记录
linux·学习·ubuntu
知识分享小能手4 小时前
Ubuntu入门学习教程,从入门到精通,Ubuntu 22.04的基本配置 (3)
linux·学习·ubuntu