Toco x Databend:Databend Cloud 如何满足 Web3 大数据服务的严苛考验?

Toco 是一家位于瑞士的 Web3 服务提供商,致力于通过彻底改变全球金融体系的陈旧观念来应对气候变化。他们提供了一种开创性的碳货币 Tocos,每个流通中的 Tocos 代表一吨二氧化碳当量,存储在安全可靠的数字钱包中。用户可以使用 Tocos 应用轻松地将当地货币兑换为 Tocos,然后使用 Tocos 消费、储蓄或交易。每次用户使用 Tocos 进行日常交易时,都在通过推动对更多碳去除的需求来采取积极的气候行动。

业务挑战

目前,Toco 正在慢慢向欧洲扩张,已经开始进入多个国家。在整个行业进入快速增长的背景下,Toco 预计在未来的几个月中会面临较大的增长挑战。而对其技术团队而言,当其市场营销推广不断拓展时,对数据基础设施的考验才真正开始。营销团队想把所有东西都变成数据,以各种方式展现在人们的眼前。

因此,Toco 对大数据和分析平台的要求非常高,他们以数据为核心资产,并要求数据技术栈要具备模块化、自由扩展和变化的能力。Toco 想要的数据库,是一个可以访问 S3 Bucket,也可以使用不同工具从 S3 Bucket 中读取文件的数据库。同时,Toco 还希望这个数据库是一个计算、存储分离的架构,具备真正的灵活性和模块化。这样一来,Toco 对数据库选型的范围就缩小到了极少数。

为什么选择 Databend Cloud?

Databend Cloud 凭借着优秀的存储、计算分离架构和以下功能特点顺利进入了 Toco 的选型:

  1. Databend Cloud 借鉴了 Snowflake 的集群优点,以增强分布式计算能力。Databend Cloud 与 Snowflake 在体验上基本没有任何改变,这对 Toco 而言是极具吸引力的一点。但 Databend Cloud 在资源精细化调度、资源利用率方面都优于 Snowflake,成本也更低;
  2. Databend Cloud 具有业界领先的向量化计算引擎,所有算子都已经实现了向量化,大幅提升单机计算性能和分布式集群能力;
  3. Databend Cloud 完全基于对象存储设计,支持 HDFS、Amazon S3, Azure Blob, OSS, COS 等 20 多种对象存储协议。在对象存储上,真正实现了存储、计算分离,资源控制粒度更细。计算节点可以根据需求弹性扩展,而不受存储容量限制。Databend Cloud 还内置了 Stream(CDC)+ Task 流式运算及任务调度,可以实现流批一体化方案;
  4. Databend Cloud 提供对 STAGE 的原生支持。STAGE 是 Databend Cloud 数据流转的核心,用户可以从 STAGE 中加载数据和向 STAGE 中导出数据,还可以直接在 STAGE 中进行数据查询。用户只需要为 Databend Cloud 创建一个包含数据文件的 STAGE,就可以轻松进行数据查询,无需编写复杂的建表语句或繁琐的数据导入流程。在实际操作中, STAGE 向 Table 流转也非常简单。

Toco 技术负责人表示:"Toco 是一家正在成长中的公司,对大数据和数据分析平台要求非常高,Databend Cloud 基于对象存储设计,在低成本、高性能的同时还提供了完整灵活的数据处理流程,没有多少工具能够提供这样的便利性。"

解决方案

目前,Toco 将 Databend Cloud 作为主要的分析数据库来满足当前需求。应用主要分为几个阶段:

第一阶段:数据获取及处理

这一阶段,Toco 主要从应用程序的 API 和市场营销活动网页中获取数据,然后利用 Mage orchestration 来管理这些数据处理流程。Orchestration 会对端点的多个请求进行协调,以收集数据。然后将其向前推送到 S3 Bucket,Databend 从 S3 Bucket 中读取数据。Toco 还会在数据库中运行 DBT 流程,以转换和准备数据,这构成了一个非常强大的数据仓库。

第二阶段:数据访问及展示

一旦数据准备好供客户使用,Toco 会通过 Superset 将处理过的表数据推送给客户。对于内部用户,Toco 会提供访问公共的 Superset Dashboard 权限,用户可以直接连接 Databend Cloud 并读取数据。公众也可以通过 Superset 面板访问某些数据。

这种结构化的方式确保了内部和外部客户都能以无缝、高效的方式访问必要的数据,但这个过程还缺乏自动化的流程,Toco 技术团队计划完善和扩展这些流程,以满足未来的需要。

由于平时的广告营销活动并没有存储所有数据,比如 PostgreSQL 和 MongoDB 数据库中的表数据。API 的方式很难满足需求,下一阶段,Toco 决定采用 Airbyte(Airbyte 是一种开源数据集成软件,会将应用程序、API和数据库中的数据同步到数据仓库、数据湖和其他目的地) 替代 API 获取数据,以自动化的方式自动创建源表和 S3 Bucket。开发人员对数据库的任何更改都会自动出现在源表上。

未来探索

目前,Toco 在使用 Databend Cloud 作为其分析数据库后,一切运行平稳顺畅,基本没遇到过什么问题。当后期营销越来越多时,可能会面临用户量激增的局面,届时 Toco 需要做"battle test",在生产环境中检测系统的稳定性。

同时,Toco 计划把一些数据从 Databend Cloud 推送到用户的 API 端,然后使用 Airbyte 和 CDC ,做实时数据流分析的探索。这部分数据将主要提供给营销人员使用,例如实时确定客户的细分画像,这要求数据库具备准实时的数据分析能力,Databend Cloud 可以提供近实时数据分析,为业务提供时效性更强的业务决策支撑,帮助 Toco 应对日益增长的业务需求。

相关推荐
蚂小蚁18 小时前
AI+云编程搞定Web3游戏开发:下一代游戏的新基建
web3·aigc·ai编程
帅云毅2 天前
Web3.0的认知补充(去中心化)
笔记·学习·web3·去中心化·区块链
ProgramHan2 天前
Web3革命——区块链技术重构数字世界的技术逻辑与产业未来
重构·web3·区块链
dapp04022 天前
Web3中心化交易所钱包-批量地址生成业务
web3
电报号dapp1192 天前
Web3实战:从零开发你的ERC20代币合约
web3·去中心化·区块链·智能合约
电报号dapp1193 天前
Web3钱包开发功能部署设计
web3·去中心化·区块链·智能合约
区块链蓝海3 天前
Synternet数据流正式上线Google Cloud Web3
web3
dingzd953 天前
Web3区块链网络中数据隐私安全性探讨
web3·区块链·互联网·facebook·tiktok·instagram·clonbrowser
二川bro4 天前
AI与Web3.0:技术融合
人工智能·web3
Sui_Network4 天前
全能 Sui 技术栈,构建 Web3 的未来
人工智能·物联网·游戏·web3·区块链·智能合约