Databend 如何利用 GPT-4 进行质量保证

背景

在数据库行业,质量是核心要素。

Databend 的应用场景广泛,特别是在金融相关领域,其查询结果的准确性对用户至关重要。因此,在快速迭代的过程中,如何确保产品质量,成为我们面临的重大挑战。

随着 Databend 开源社区的快速发展,新功能的持续增加和现有功能的优化提出了新的测试挑战。我们致力于在每次代码更新中实施严格的测试,确保稳定性并防止任何潜在问题。

Databend 的测试方法

为了确保软件的稳定性和可靠性,Databend 的测试方法覆盖从代码级到系统级的各个方面。

Unit Tests

单元测试作为测试的基石,着重验证代码的基本功能和逻辑。我们在每次代码提交前自动运行单元测试,确保及时捕捉任何潜在问题。

SQL Logic Tests

Databend 引入了大量的 DuckDB、CockroachDB 和 PostgreSQL 的 SQL 逻辑测试(感谢他们)。这些测试覆盖了广泛的 SQL 场景,帮助我们发现并修复潜在问题,保障 SQL 查询的精确性。

Compatible Tests

兼容性测试确保新版本与旧版本的向后兼容,帮助用户平稳过渡到 Databend 的更新版本,保障业务的连续性和稳定性。

Perf Tests

Databend 使用 ClickBench hits 数据集和 TPCH-SF100 作为性能指标,通过这些测试来确保每个版本的性能都符合预期。

Longrun Tests

Longrun 测试专注于数据写入、更新和合并等操作的长期效果,通过监测 CPU 和内存的稳定性,确保 Databend 的长期运行稳定性和可靠性。

除 Longrun Tests 外,这些测试在每个 GitHub Pull Request 提交时都会执行,以保证任何更改都符合我们的质量标准。

借助 GPT-4 生成测试模型

尽管已经采用了多种测试方法,Databend 团队始终在寻求创新。近期,我们引入了 GPT-4 来进一步提升测试流程。

双缝探测模型

针对涉及核心路径的修改,我们采用双缝探测模型进行验证。这种方法通过比较当前 PR 版本与主分支(main)版本的结果集来进行验证。如果两者结果一致,则可视为无大碍。但这些验证的 SQL 语句的质量至关重要,这正是我们利用 GPT-4 生成的部分。首先,我们指导 GPT-4 根据需求推理出随机数据生成方式,如 setup.sql 所示。然后,基于这些数据,GPT-4 进一步生成用于校验的 SQL 语句,例如 check.sql。这些验证 SQL 语句可以根据不同场景进行调整。接下来,我们在这两个版本的 Databend 上运行这些 SQL 语句,以验证结果集的一致性。

结果集正确性模型

为了确保 Databend 的结果集的正确性,我们选择了 Snowflake 作为参考。这一方法包括三个步骤:

  • setup.sql: 在 Databend 和 Snowflake 上分别构建表并导入随机数据集。
  • action.sql:在 Databend 和 Snowflake 上分别执行数据变更操作,如 Replace/Merge 等。
  • check.sql: 在 Databend 和 Snowflake 上分别执行并验证结果。

这些 SQL 语句都是由 GPT-4 根据 setup.sql 的数据模式生成的,更加复杂和随机,以便更有效地探测潜在的问题。

总结

Databend 团队通过引入 GPT-4,为测试流程带来了显著的进步。我们已在 Databend Wizard 项目中发布了更多测试集:

github.com/datafuselab...

借助这些 GPT-4 生成的测试模型,Databend 的质量和稳定性又前进了一大步,科技是第一生产力。

References

1\] [datafuselabs/wizard](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fdatafuselabs%2Fwizard "https://github.com/datafuselabs/wizard") \[2\] [Databend](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fdatafuselabs%2Fdatabend "https://github.com/datafuselabs/databend") \[3\] [Snowflake](https://link.juejin.cn?target=https%3A%2F%2Fwww.snowflake.com%2F "https://www.snowflake.com/") ## 关于 Databend Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。 👨‍💻‍ Databend Cloud:[databend.cn](https://link.juejin.cn?target=https%3A%2F%2Fdatabend.cn "https://databend.cn") 📖 Databend 文档:[databend.rs/](https://link.juejin.cn?target=https%3A%2F%2Fdatabend.rs%2F "https://databend.rs/") 💻 Wechat:Databend ✨ GitHub:[github.com/datafuselab...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fdatafuselabs%2Fdatabend "https://github.com/datafuselabs/databend")

相关推荐
阿四啊2 分钟前
【Redis实战篇】秒杀优化
数据库·redis·缓存
川石课堂软件测试5 分钟前
涨薪技术|0到1学会性能测试第65课-SQL捕获阻塞事件
数据库·sql·功能测试·oracle·性能优化·单元测试·tomcat
darkchink19 分钟前
[LevelDB]LevelDB版本管理的黑魔法-为什么能在不锁表的情况下管理数据?
c语言·数据库·c++·oracle·数据库开发·dba·db
卡戎-caryon1 小时前
【MySQL】02.数据库基础
linux·网络·数据库·mysql·存储引擎
小楠小楠小楠2 小时前
Redis的主从架构
数据库·redis·架构
数据库幼崽2 小时前
MySQL 8.0 OCP 1Z0-908 101-110题
数据库·mysql·ocp
码农捻旧2 小时前
Node.js中MongoDB连接的进阶模块化封装
数据库·mongodb·node.js
数据库幼崽2 小时前
MySQL 8.0 OCP 1Z0-908 111-120题
数据库·mysql·ocp
BuLingLings3 小时前
vue3_flask实现mysql数据库对比功能
数据库·mysql·flask·vue
未来影子3 小时前
面试中的线程题
java·数据库·面试