【Apache Doris】周FAQ集锦:第 14 期

【Apache Doris】周FAQ集锦:第 14 期

欢迎查阅本周的 Apache Doris 社区 FAQ 栏目!

在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户和开发者分享有关 Apache Doris 的常见问题。

通过这个每周 FAQ 栏目,希望帮助社区小伙伴更好地了解和应用 Apache Doris,促进经验交流和技术共享。

SQL问题

❓Q1 doris怎么设置/声明变量?

💡A1 参考如下:

set @doris_data='2024-06-22 00:00:00';
select @doris_data

❓Q2 doris中update能否跟 left join 结合起来使用?

💡A2 参考如下:

UPDATE t1
SET t1.c1 = t2.c1, t1.c3 = t2.c3 * 100
FROM t2 LEFT JOIN t3 ON t2.id = t3.id
WHERE t1.id = t2.id;

❓Q3 doris如何关闭runtime filter?

💡A3 参考如下:

-- 方式一:直接关闭
set runtime_mode=OFF;
-- 方式二:runtime filter类型设置为空
set runtime_filter_type = '';

数据操作问题

❓Q4 doris中导入label为什么不能重?

💡A4 Doris 的导入作业都可以设置一个 Label。这个 Label 通常是用户自定义的、具有一定业务逻辑属性的字符串。Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 Doris 的 Label 机制,能够保证 Exactly-Once 语义。Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。即 3 天后,已完成的 Label 会被自动清理,之后 Label 可以被重复使用。

Lable机制内容可查阅:
https://doris.apache.org/zh-CN/docs/dev/data-operate/import/load-atomicity

❓Q5 workload group和resource group是否可以共用

💡A5 workload group和resource group逻辑相互独立,可以共用。

doris2.0 版本引入了 workload group,可以实现对 CPU 资源的软限制;doris2.0之前提供resource group多租户和资源隔离方案,主要目的是为了多用户在同一 Doris 集群内进行数据操作时,减少相互之间的干扰,能够将集群资源更合理的分配给各用户。

❓Q6 doris中执行delete删除后什么时候会释放磁盘空间?

💡A6 doris中执行delete删除只是标记删除,真正的删除动作是在做完compaction后,即在触发 compaction 动作时会将相应的磁盘空间释放。

❓Q7 doris能否支持通过 hive catalog 向 hive 表中回写数据?

💡A7 从 2.1.3 版本开始,Apache Doris 支持对 Hive 的 DDL 和 DML 操作。用户可以直接通过 Apache Doris 在 Hive 中创建库表,通过执行INSERT INTO语句来向 Hive 表中写入数据。通过该功能,用户可以通过 Apache Doris 对 Hive 进行完整的数据查询和写入操作,进一步帮助用户简化湖仓一体架构。

2.1.3 release内容可以查阅:
https://doris.apache.org/zh-CN/docs/dev/releasenotes/release-2.1.3

运维常见问题

❓Q8 doris目前兼容哪些版本的jdk?

💡A8 doris在2.1及之前版本中,主要支持的是jdk 8。新的jdk由于支撑模块化等一些新功能,在反射的api支持上做了一些和jdk 8不兼容的改动,所以,在使用doris 2.x的时候,请务必使用jdk 8。

预计在下一个大版本,会将jdk升级到jdk 17, 以便利用最新的jdk技术。同时,jdk 17也是oracle可以免费商用的一个LTS版本。

❓Q9 doris中be的doris_scanner_thread_pool_thread_num 这个参数值能否超过机器的核数?

💡A9 可以,但是超过了也没意义。

比如一个八核的机器可以起几百个线程,但是实际同时跑的还是只有八个,而且还得花费更多损耗去调度。

其它问题

❓Q10 doris是否适合日志存储分析?

💡A10 Doris/SelectDB不拘泥于传统数仓的限制,针对日志数据的特点引入了多项创新性技术,使用户可基于 Doris/SelectDB 构建开放、高性能、低成本、统一的日志存储分析平台,截至目前已在近百家行业内知名企业中落地。

《SelectDB 新一代日志存储分析平台解决方案》白皮书内容可查阅:《SelectDB 新一代日志存储分析平台解决方案》白皮书重磅发布|立即下载

在该白皮书中,从日志场景的存储成本、写入性能、查询性能、集群管理等多方面出发,详细对比 Elasticsearch、ClickHouse 与 Doris/SelectDB 应对日志数据存储分析的优势。


一臻数据

关于社区

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

如果您对 Apache Doris 感兴趣,可以通过以下入口访问官方网站、社区论坛、GitHub和dev邮件组:

💡官方文档

💡社区论坛

💡GitHub

💡dev邮件组:dev@doris.apache.org

非常欢迎您在社区论坛中与其他用户分享您的使用经验和技巧,或者向dev邮件组提交反馈和意见。

相信,您的参与将帮助Apache Doris变得更加完善。

相关推荐
PersistJiao1 小时前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
2301_811274311 小时前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
Yz98761 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交1 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康1 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康1 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差9532 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
锵锵锵锵~蒋2 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
二进制_博客2 小时前
Flink学习连载文章4-flink中的各种转换操作
大数据·学习·flink
大数据编程之光2 小时前
Flink入门介绍
大数据·flink