Databend 开源周报第 126 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:app.databend.cn

What's On In Databend

探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。

全新 Filter 执行框架

在全新的 Filter 执行框架中,Databend 引入了一个开创性的概念 ------ "不可变索引"。

🚀 不可变索引使我们能够在遇到 AND 和 OR 操作时避免生成临时选择缓冲区。这不仅减少了内存碎片化,还消除了从临时选择到最终选择的循环复制。

根据测试,此优化可以将原本需要 14.5s 的查询优化至 9.7s 。

如果您想了解更多信息,欢迎联系 Databend 团队,或查看下面列出的资源。

Code Corner

一起来探索 Databend 和周边生态中的代码片段或项目。

优化查询性能

Databend 通过提供聚合索引、聚类键和虚拟列,使得用户能够根据特定的查询场景来优化查询性能。

  • 聚合索引 可以对数据进行预聚合,从而加快聚合查询操作,如求和、平均值、最大值和最小值等。特别适用于需要频繁进行聚合计算的场景。
  • 聚类键 可以指导 Databend 如何在存储层面组织数据。使得具有相似键值的数据行物理上存储在一起,从而在查询时减少读取次数,加快查询速度。
  • 虚拟列 可以提取 Variant 数据中的嵌套字段并将该数据存储在单独的存储文件中。对于优化复杂计算和条件查询非常有用,减少了运行时的计算负担。

通过合理应用这些工具,Databend 能够显著提高数据检索的速度和效率,为用户提供快速、灵活的查询性能优化选项。

Highlights

以下是一些值得注意的事件,也许您可以找到感兴趣的内容。

  • 支持将 Top-N 排序外溢。
  • 支持在后台任务定义时使用条件语句构建有向无环图。
  • 新增 Binary 数据类型。
  • 新增 stream_status HTTP API ,用于检查流的状态。
  • 导入 Parquet 过程中可以使用 MISSING_FIELD_AS 定义默认行为。
  • 阅读文档 Docs | Continuous Data Pipelines 了解如何利用 Stream 和 Pipeline 进行持续数据导入。

What's Up Next

我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。

Databend 2024 年研发路线讨论

目前,Databend 服务的最大 单表 包含数十万个数据段、几千万个数据块和 数万亿条 记录。这些数据涵盖了 7PB 的原始数据和超过 300TB 的索引数据。

2024 年的口号是:Compute Where Data Lives: Swift, Smart, Seamless 。欢迎加入我们,一起探索 Databend 的持续研发之旅和未来计划。参与讨论并贡献您的想法!

任务 状态 评论
并发性和调度器的增强 计划中 旨在实现更快、更高效的任务处理并改善系统响应能力。
GEOMETRY 数据类型 计划中
TPC-DS 性能 进行中 持续优化以获得更好的性能基准。
多语句事务 未指定
存储过程(Python) 未指定 添加对 Python 的支持,以便与 SQL 协同进行多样化的数据分析。
统一存储、数据仓库和计算 未指定 为 AI 和云计算提供一体化数据平台,调度 CPU & GPU 资源。

Issue #14167 | Databend Roadmap for 2024 (Discussion)

如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 link.databend.rs/i-m-feeling... 来挑选一个随机问题,祝好运!

Changelog

前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。

地址:github.com/datafuselab...

Contributors

非常感谢贡献者们在本周的卓越工作。

Connect With Us

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

相关推荐
保持学习ing2 小时前
day1--项目搭建and内容管理模块
java·数据库·后端·docker·虚拟机
宇钶宇夕2 小时前
EPLAN 电气制图:建立自己的部件库,添加部件-加SQL Server安装教程(三)上
运维·服务器·数据库·程序人生·自动化
爱可生开源社区3 小时前
SQLShift 重磅更新:支持 SQL Server 存储过程转换至 GaussDB!
数据库
贾修行3 小时前
SQL Server 空间函数从入门到精通:原理、实战与多数据库性能对比
数据库·sqlserver
傲祥Ax3 小时前
Redis总结
数据库·redis·redis重点总结
一屉大大大花卷4 小时前
初识Neo4j之入门介绍(一)
数据库·neo4j
周胡杰5 小时前
鸿蒙arkts使用关系型数据库,使用DB Browser for SQLite连接和查看数据库数据?使用TaskPool进行频繁数据库操作
前端·数据库·华为·harmonyos·鸿蒙·鸿蒙系统
wkj0015 小时前
navicate如何设置数据库引擎
数据库·mysql
赵渝强老师5 小时前
【赵渝强老师】Oracle RMAN的目录数据库
数据库·oracle
暖暖木头5 小时前
Oracle注释详解
数据库·oracle