Databend 开源周报第 113 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:app.databend.cn

What's On In Databend

探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。

数据导入具有额外列的表

默认情况下,COPY INTO 会按照文件中的字段顺序与表中对应的列进行匹配,从而将数据导入到表中。关键在于确保文件和表之间的数据正确对齐。

如果表中的列数大于文件中的字段数,可以手动指定需要导入数据的列来保证对齐。

而在导入 CSV 格式的数据文件时,如果表中的列数大于文件中的字段数,且额外列位于表的末尾,则可以使用 FILE_FORMAT 选项 ERROR_ON_COLUMN_COUNT_MISMATCH 来导入数据。

如果您想了解更多信息,请查看下面列出的资源。

Code Corner

一起来探索 Databend 和周边生态中的代码片段或项目。

为 ParquetReader 设计读策略

直接使用 arrow-rs 的 API 存在一些问题,当我们尝试为 prewhere 和 topk 下推预取数据时,无法重用之前已经反序列化过的数据块,而在现有的实现上支持重用逻辑会很复杂。

为了改善 row group 的读逻辑并且重用上一个阶段中的预取数据,我们对相关逻辑进行了大量的重构并且引入了读策略进行解耦。

NoPrefetchPoliy

没有预取阶段。直接读、反序列化并输出你需要的数据块。

PredicateAndTopkPolicy

在预取阶段预取 prewhere 和 topk 需要的列。它们反序列化为 DataBlock ,并将其计入 RowSelection 。然后按批大小分割 DataBlock 并将结果存储在内存中的 VecDeque 中。

在最后阶段读取 RowSelection 指定的剩余列,并按批输出 DataBlocks 。接着合并预取数据并根据 output_schema 来投影得到结果数据块。

TopkOnlyPolicy

PredicateAndTopkPolicy 类似,但在预取阶段只考虑 topk 。

如果您想了解更多信息,请查看下面列出的资源。

Highlights

以下是一些值得注意的事件,也许您可以找到感兴趣的内容。

  • 在 Query 日志中增加 Spill 相关信息。
  • 支持使用 COPY INTO 将数据导出为压缩文件。
  • 引入 GET /v1/background/:tenant/background_tasks HTTP API 来查询后台任务。
  • 阅读 Example 4: Filtering Files with Pattern 以了解如何使用模式来过滤文件。

What's Up Next

我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。

修复由 SQLsmith 检测出的问题

自上个月引入 SQLsmith 测试,累计检测出大约 40 个问题。Databend Labs 正在致力于修复这些问题来改善各种场景下的系统稳定性。

我们希望你也可以参与到这项工作中,其中可能会有一些涉及类型转换和特殊值处理的简单任务,可以参考之前的其他修复进行处理。

Issues | Found by SQLsmith

如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 link.databend.rs/i-m-feeling... 来挑选一个随机问题,祝好运!

New Contributors

一起认识社区中的新伙伴,Databend 因你们而变得更加美好。

  • @zenus 修复了在执行COPY INTO期间未检测到模式不匹配的问题,#13010.

Changelog

前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。

地址:github.com/datafuselab...

Contributors

非常感谢贡献者们在本周的卓越工作。

Connect With Us

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

相关推荐
夜泉_ly2 小时前
MySQL -安装与初识
数据库·mysql
qq_529835353 小时前
对计算机中缓存的理解和使用Redis作为缓存
数据库·redis·缓存
月光水岸New5 小时前
Ubuntu 中建的mysql数据库使用Navicat for MySQL连接不上
数据库·mysql·ubuntu
狄加山6755 小时前
数据库基础1
数据库
我爱松子鱼5 小时前
mysql之规则优化器RBO
数据库·mysql
chengooooooo6 小时前
苍穹外卖day8 地址上传 用户下单 订单支付
java·服务器·数据库
Rverdoser7 小时前
【SQL】多表查询案例
数据库·sql
Galeoto7 小时前
how to export a table in sqlite, and import into another
数据库·sqlite
人间打气筒(Ada)7 小时前
MySQL主从架构
服务器·数据库·mysql
leegong231117 小时前
学习PostgreSQL专家认证
数据库·学习·postgresql