时序数据库介绍

时序数据库（Time Series Database，简称TSDB）是专门用于存储、查询和分析时间序列数据的数据库。这类数据的特点是数据点带有时间戳，并且随时间连续产生。

数据库	简介	适用场景
InfluxDB	最流行的TSDB之一，类SQL查询语言InfluxQL，生态完善。	中小规模监控、物联网、实时分析。
Prometheus	CNCF毕业项目，自带Pull模型采集，结合Grafana可视化极佳。	云原生、Kubernetes监控（必备）。
TimescaleDB	基于PostgreSQL的扩展，完全支持SQL和事务。	需要复杂关联查询的时序场景。
TDengine	国产开源，高性能，集成缓存、流式计算，降低总拥有成本。	物联网、车联网、工业大数据（对性能要求极高）。
DolphinDB	国产高性能分布式，内置强大的向量化编程语言。	量化金融、高频交易、复杂分析计算。
QuestDB	使用SIMD指令集优化，性能极佳，支持PostgreSQL线协议。	金融数据、高吞吐低延迟分析。
IoTDB	Apache顶级项目，专为物联网设计，支持从边缘到云端。	工业物联网、智慧城市、能源管理。

数据模型 ：通常由 时间戳 + 标签（维度） + 指标值（度量） 构成。例如，cpu_usage{host=server1, region=us-west} 72.5 1650000000。
存储引擎 ：使用LSM树结构，顺序写入磁盘，避免随机写性能瓶颈。
压缩算法：同一时间戳下多指标组合压缩、差值编码、游程编码等，压缩率可达90%以上。
降采样：对历史数据进行聚合（如将秒级数据降为分钟级），节省存储并加速查询。
连续查询：自动定期执行预计算，实现增量聚合视图。

工作原理

时序数据写入的最大挑战是高频、海量、顺序追加。传统数据库（如MySQL）的B+树随机写入会成为瓶颈，而时序数据库采用以下策略：

先写内存（WAL + MemTable）
- 数据到达时，先顺序写入磁盘日志（WAL，预写日志），保证宕机不丢数据。
- 同时将数据写入内存中的有序结构（如跳表、红黑树），称为MemTable。内存写入极快，能轻松应对百万级QPS。
批量合并与刷盘
- 当内存数据积累到一定阈值，会批量写入磁盘，形成不可变的文件（如LSM树的SSTable）。
- 这个过程利用了磁盘的顺序写性能（远快于随机写），并且多个小批次会合并成一个大文件，减少IO次数。
异步落盘与Compaction（合并）
- 后台持续进行文件合并（Compaction），将多个小文件合并成大文件，同时清理已删除或过期的数据，保持查询效率。

这是时序数据库最核心的奥秘，主要基于LSM树及其变种，但针对时序特征做了深度优化：

关键技术	原理	效果
时间分片	按时间范围（如一天/一小时）将数据切分成独立文件块。	查询某时间范围时，只扫描对应分片，大幅减少IO。
标签索引（倒排索引）	对标签（如`host=server1`）建立类似搜索引擎的倒排索引。	能毫秒级定位符合标签条件的所有时间序列。
列式存储	同一列（如所有CPU值）连续存储，不同列分开存放。	查询只读所需列；同列数据类型相同，压缩率极高。
专用压缩算法	- 差值编码：存相邻值的差值（如时间戳差1秒）。 - 游程编码：连续相同的值只存一次。 - 位压缩（Gorilla）：对浮点数做异或压缩。	压缩率通常达90%~95%，10GB原始数据最终可能只占1GB。

查询性能不仅靠存储，还靠提前算好（用空间换时间）：

时序数据往往有时效性------7天前的秒级数据很少被查。

先快速写内存并记日志，后台批量转成压缩的列式文件；查询时靠倒排索引快速定位，靠预聚合和列式计算快速响应；过期数据自动回收，保持存储轻量。