时序数据库双存储引擎技术解析

随着物联网的蓬勃发展和工业技术的不断进步,管理海量时间序列数据的需求日益迫切。时间序列数据主要分为单元时间序列和多元时间序列两类。单元时间序列仅含单一时间相关变量,而多元时间序列则包含多个时间相关变量,且这些变量的采样时间点相同,因此数据能以矩阵形式展现。

时序数据库存储引擎分类

目前主流的时序数据库存储引擎主要分为支持单元时间序列和多元时间序列两大类。

  • 单元时间序列存储引擎‌:独立存储每个时间序列,数据以时间戳列和值列对应形式写入磁盘。这类引擎适用于传感器独立采集数据的场景。典型代表有KairosDB、OpenTSDB、InfluxDB和Prometheus等。

  • 多元时间序列存储引擎‌:多个时间序列共享一列时间戳,每个时间序列再单独存储一列值列。适用于多个传感器同时采集的场景,如设备级别数据收集。TimescaleDB和TDengine等属于此类。

Apache IoTDB的双存储引擎创新

Apache IoTDB自0.13版本起,引入了双存储引擎架构,兼顾单元时间序列和多元时间序列的存储需求。

  • 双存储引擎架构‌:存储引擎向上为查询引擎提供标准化数据访问,向下与存储介质交互,完成数据读写。双存储引擎的区别在于是否共享时间戳列,以适应不同业务场景。

  • 数据模型设计‌:创新元数据模型,允许用户通过API指定多元时间序列是否共享时间戳,同时保持对原有数据模型的兼容性。存储引擎的指定粒度设在设备级别,提高使用灵活性。

性能对比
  • 写入性能与磁盘占用‌:测试显示,当多元时间序列分量数超过1时,共享时间戳存储引擎的持久化速度平均比单元时间序列快1.6倍。磁盘占用方面,分量数多于1时,多元时间序列因共享时间戳而显著节省空间,最多可减少约50%的磁盘占用。

  • 查询性能‌:

    • 不带值过滤的原始数据查询‌:多元时间序列因少读时间列和减少值列对齐操作,查询速度平均快62.2%。
    • 带值过滤的原始数据查询‌:在不同选择率和空值比例下,多元时间序列查询性能平均优于单元时间序列,特别是在高选择率和低空值比例时,性能提升可达40%。
    • 降采样查询‌:多元时间序列在查询多个分量时表现更佳,但查询单分量时略逊于单元时间序列。
应用场景总结
  • 单元时间序列‌:适用于单分量场景,写入持久化速度快,磁盘占用少,查询性能略优。
  • 多元时间序列‌:分量数大于1且空值比例低时,写入持久化速度提升显著,磁盘空间节省近半,查询性能在多分量场景下优于单元时间序列。

Apache IoTDB的双存储引擎架构为高效管理海量时间序列数据提供了创新解决方案,满足了不同业务场景的多样化需求。

相关推荐
身如柳絮随风扬3 分钟前
深度解析 Elasticsearch 搜索服务:核心原理、架构与优化实践
大数据·elasticsearch·架构
Frank_refuel4 分钟前
终端环境下:Ubuntu 22.04.1 安装 MySQL 数据库
数据库·mysql·ubuntu
kft131424 分钟前
AI 驱动测试 2.0:当测试智能体成为你的“超级 QA“
大数据·人工智能·elasticsearch
亿信华辰软件1 小时前
睿治Agent数据治理平台重磅发布:数据治理大脑+全栈Agent,以AI重构数据治理全流程
大数据·人工智能
成长之路5141 小时前
【数据集】地级市农业韧性数据-含代码(1990-2023年)
大数据
虹科网络安全1 小时前
艾体宝产品|深度解读 Redis 8.4 新增功能:原子化 Slot 迁移(下)
数据库·redis·bootstrap
X.AI6662 小时前
小米 MiMo‑V2.5 正式开源,Orbit 百万亿 Token 激励计划开放申请,速来撸资源
开源
电子科技圈2 小时前
芯科科技在蓝牙亚洲大会展示汽车与边缘AI前沿蓝牙创新技术, 解锁车用、家居、健康及工商业等应用场景
人工智能·科技·嵌入式硬件·mcu·物联网·网络安全·汽车
redreamSo2 小时前
让AI Agent自动接Issue、写代码、上线:我用200行代码搭了一个全自动开发流水线
人工智能·开源·github
有味道的男人2 小时前
对接亚马逊平台接口,商品全量信息一键抓取
数据库