【数据库】数据库选型

一、数据库选型考量点

数据库选型需要考虑哪些特点这些特点有哪些数据库可以支持

选型维度	关键考量点	代表数据库产品	典型适用场景
数据模型	关系型、文档型、键值型、图型、时序型	MySQL/PostgreSQL、MongoDB、Redis、Neo4j、InfluxDB	结构化业务数据用关系型；半结构化用文档型；缓存用键值型
事务支持	ACID 完整性、强一致性	PostgreSQL 、MySQL/InnoDB、Oracle、TiDB、CockroachDB	金融、订单等高可靠场景必选ACID支持
扩展能力	垂直扩展 vs 水平分片	MongoDB 、Cassandra、TiDB、Amazon Aurora	互联网高并发业务需水平扩展能力
读写性能	读密集型、写密集型	Redis （高速缓存）、ClickHouse（分析）、Cassandra（高写入）	实时推荐用Redis；日志分析用ClickHouse
一致性模型	强一致性、最终一致性	MySQL （强一致）、MongoDB（可调）、Cassandra（最终一致）	核心业务选强一致；社交feed可接受最终一致
高可用性	主从复制、多副本、自动故障转移	MySQL MGR、PostgreSQL Patroni、MongoDB副本集、CockroachDB	需要99.99%可用性的在线服务
生态成熟度	工具链、社区支持、文档完善度	MySQL 、PostgreSQL、MongoDB、Redis	企业级应用优先选择生态成熟产品
部署成本	开源免费 vs 商业授权	PostgreSQL （开源）、MySQL（开源）、Oracle（商业）、SQL Server（商业）	初创公司倾向开源；传统企业可能选商业
特殊功能	全文检索、地理空间、时序分析	Elasticsearch （搜索）、PostGIS（地理）、InfluxDB（时序）	地理位置服务用PostGIS；监控用时序库

选型决策树建议：
1.核心事务系统 ：优先选择 PostgreSQL 或 MySQL/InnoDB（ACID+生态成熟）
2.高并发缓存 ：Redis 或 Memcached（亚毫秒级响应）
3.海量数据/IoT ：MongoDB 或 Cassandra（灵活模型+水平扩展）
4.实时分析 ：ClickHouse 或 Apache Druid（列存+向量化执行）
5.搜索/日志 ：Elasticsearch（倒排索引+分词）
6.分布式新架构 ：TiDB 或 CockroachDB（兼容MySQL协议+自动分片）
注意：实际选型需结合业务规模、团队技术栈、运维能力综合评估，多数场景下 PostgreSQL + Redis 组合可覆盖80%需求。

二、主流数据库深度对比：特点、局限与应用场景全解析

MySQL

核心特点

简单易用：开源关系型数据库，速度快且使用简单，适合Web应用开发
存储引擎灵活：支持多种引擎，InnoDB提供ACID事务、行级锁和MVCC
主从复制成熟：支持读写分离，构建高可用架构成本低
生态完善：社区支持强大，工具链丰富

主要局限

复杂查询能力弱：SQL标准支持不完善，复杂查询和窗口函数不如PostgreSQL
扩展性瓶颈：原生不支持水平分片，大数据量需依赖中间件
功能相对简单：缺乏自定义数据类型、高级索引等

典型应用场景

互联网Web应用（电商、CMS、博客等读多写少场景）
中小型OLTP业务（千万级以下数据量）
作为TiDB等分布式数据库的迁移源

PostgreSQL

核心特点

功能强大：支持完整SQL标准、复杂查询、窗口函数、CTE递归
高度可扩展：支持自定义数据类型、函数、索引，扩展机制灵活（如PostGIS）
MVCC机制：读写无阻塞，高并发下死锁概率低
在线操作能力：支持在线建索引、加列，维护无需停机

主要局限

学习曲线陡峭：功能丰富导致上手难度高
VACUUM维护开销：需定期回收旧版本数据，可能引发I/O和锁开销
资源消耗大：大规模数据或高并发时对内存/CPU要求高

典型应用场景

复杂业务系统（金融、电信等需数据完整性场景）
数据仓库（OLAP分析、大数据处理）
地理空间应用（结合PostGIS实现LBS服务）
JSON/混合数据模型（原生支持JSONB）

MongoDB

核心特点

文档模型灵活：BSON格式，无预定义Schema，支持动态字段和嵌套结构
水平扩展能力强：原生分片支持，可扩展至PB级数据
高可用架构：副本集提供自动故障转移
丰富查询语言：支持CRUD、聚合管道、全文检索、地理空间查询

主要局限

事务支持有限：多文档事务性能较弱
复杂查询性能差：关联查询（$lookup）效率低
数据一致性弱：默认最终一致性，强一致需额外配置

典型应用场景

内容管理系统（文章、评论等半结构化数据）
用户画像与行为分析（灵活存储标签和事件）
物联网数据（高并发写入异构数据）
实时数据处理（日志采集、监控数据存储）

Redis

核心特点

内存级性能：读写延迟低于1ms，支持数十万QPS
数据结构丰富：支持String、Hash、List、Set等
持久化机制：RDB快照和AOF日志平衡性能与可靠性
发布订阅功能：内置Pub/Sub实现简单消息队列

主要局限

内存容量限制：数据量受物理内存约束
单线程模型：CPU密集型操作会阻塞请求
数据一致性风险：宕机可能导致数据丢失

典型应用场景

高速缓存（减轻后端数据库压力）
会话存储（Session、Token等快速访问数据）
排行榜/计数器（利用Sorted Set实现实时排名）
分布式锁（通过SETNX实现跨进程互斥）

ClickHouse

核心特点

列式存储：仅读取查询涉及列，压缩比5-10倍
向量化执行：SIMD指令批量处理，亚秒级响应
实时数据摄入：支持每秒数百万条写入
SQL兼容：标准语法降低学习成本

主要局限

不支持事务：无ACID保证
更新/删除受限：仅支持批量异步操作
无二级索引：非主键查询需全表扫描

典型应用场景

用户行为分析（PV/UV、留存率等多维查询）
监控与告警系统（实时计算服务器指标）
BI报表（即席查询和交互式分析）
物联网数据处理（时序数据存储与聚合）

Apache Druid

核心特点

实时OLAP：数据摄入后立即可查，毫秒级聚合
预聚合设计：按时间粒度预计算，提升查询性能
分布式架构：支持PB级数据和千亿级事件
高可用自修复：节点故障自动恢复

主要局限

不支持流式更新：仅追加写入，更新需批任务
查询模式受限：复杂Join性能较差
运维复杂度高：多组件调优门槛高

典型应用场景

广告平台分析（实时统计曝光、点击）
实时监控大盘（展示QPS、延迟等指标）
用户行为分析（点击流、页面停留时长）
推荐系统（动态计算内容热度）

Elasticsearch

核心特点

全文检索：基于倒排索引，支持分词和相关性评分
分布式架构：分片和副本实现水平扩展
实时搜索：写入后1秒内可搜索
丰富生态：ELK Stack（Kibana、Logstash等）

主要局限

不支持事务：仅适合分析场景
写入性能低：索引构建限制吞吐量
资源消耗大：内存和磁盘占用高

典型应用场景

搜索引擎（网站、商品、文档检索）
日志分析（Nginx、应用日志可视化）
监控与APM（调用链和性能指标存储）
商业智能（非结构化文本分析）

TiDB

核心特点

NewSQL架构：融合OLTP与OLAP，支持HTAP
MySQL兼容：无缝迁移现有应用
水平扩展：通过TiKV分布式存储在线扩缩容
强一致性事务：分布式ACID事务

主要局限

事务延迟较高：跨节点需两阶段提交
复杂查询性能：AP查询不如专用OLAP系统
资源消耗大：多组件部署硬件成本高

典型应用场景

金融核心系统（替代Oracle/MySQL分片）
高并发OLTP（如论坛、电商）
实时HTAP（TiKV行存+TiFlash列存）
数据仓库（轻量级实时分析）

CockroachDB

核心特点

云原生设计：基于Raft实现全球分布式部署
PostgreSQL兼容：支持大部分语法和协议
自动分片与均衡：数据自动重平衡
高容错性：容忍节点/数据中心级故障

主要局限

性能损耗：分布式事务导致单节点性能较低
功能缺失：不支持存储过程、外键等
隔离级别限制：存在写倾斜问题

典型应用场景

全球化SaaS应用（就近存储数据）
金融支付系统（强一致性保证）
物联网平台（海量设备数据写入）
多租户系统（租户数据隔离与清理）

选型建议

数据库类型	首选场景	次选场景	避坑场景
MySQL	Web应用、中小型OLTP	简单分析、读多写少	复杂查询、海量数据
PostgreSQL	复杂业务、数据仓库	HTAP（轻量）、金融核心	纯KV缓存、极高并发写入
MongoDB	内容管理、用户画像	快速迭代、敏捷开发	强事务、复杂关联查询
Redis	高速缓存、排行榜	实时计数、消息队列	大数据存储、复杂分析
ClickHouse	行为分析、监控报表	BI分析、日志分析	TP事务、高频更新
Apache Druid	实时OLAP、广告分析	事件驱动分析、推荐系统	复杂Join、低延迟更新
Elasticsearch	全文检索、日志分析	搜索引擎、监控告警	TP事务、复杂计算
TiDB	金融核心、高并发OLTP	MySQL分片替代、HTAP	简单查询、小规模数据
CockroachDB	全球化SaaS、金融支付	分布式OLTP、云原生应用	复杂分析、存储过程依赖

黄金法则：优先选择团队熟悉且生态成熟的数据库，在性能与功能间平衡核心需求，避免过度设计。

三、主流数据库支持数据量级范围对比表

1、关系型数据库（SQL）

数据库	架构	理论最大容量	生产推荐容量	扩展方式	适用场景
MySQL	单机	单表 64TB（InnoDB）	单表 < 5000 万行	垂直扩容	初创业务、小型应用
MySQL	分库分表	无上限	单库 < 500GB 单表 < 2000 万行	水平拆分（Sharding）	中型互联网业务
PostgreSQL	单机	单表 32TB	单表 < 1 亿行	垂直扩容	GIS、复杂查询
PostgreSQL	Citus 分布式	PB 级	单集群 < 100TB	分布式扩展	大数据分析
TiDB	原生分布式	无理论上限	PB 级（已验证）	自动弹性扩缩容	大型互联网、金融
OceanBase	原生分布式	无理论上限	PB 级（支付宝核心）	水平扩展	超大型金融、支付
Oracle	单机	单表 128TB（PDB）	单表 < 10 亿行	垂直扩容	传统企业核心
Oracle	RAC 集群	100TB+	单集群 < 50TB	共享存储扩展	大型央国企
SQL Server	单机	524PB	单库 < 10TB	垂直扩容	Windows 生态
ClickHouse	分布式	无理论上限	PB 级（字节跳动实践）	分片扩展	实时 OLAP 分析

2、NoSQL 数据库

数据库	数据模型	理论最大容量	生产推荐容量	扩展方式	适用场景
MongoDB	文档	单文档 16MB 单集合无上限	单集群 < 100TB	分片集群	商品详情、内容管理
Redis	KV 内存	单 key 512MB 单实例 64GB	单实例 < 20GB	集群分片	缓存、Session
Redis Cluster	KV 内存	无理论上限	TB 级（社区版）	16384 槽位分片	高并发缓存
Elasticsearch	搜索引擎	单索引无上限	单分片 < 50GB	分片 + 副本	日志检索、商品搜索
HBase	列族	无理论上限	PB 级（阿里实践）	Region 分裂扩展	海量日志、风控数据
Cassandra	宽列	无理论上限	PB 级（Netflix）	一致性哈希	时序数据、IoT
Neo4j	图	单节点 34TB	单节点 < 10TB	垂直扩展	社交图谱、知识图谱
InfluxDB	时序	无理论上限	单实例 < 1TB	集群扩展	监控指标
TDengine	时序	无理论上限	10 亿条/秒写入	分布式扩展	工业 IoT、车联网

3、缓存与 KV 存储

数据库	存储介质	理论最大容量	生产推荐容量	扩展方式	适用场景
Redis	内存	单实例 512GB	单实例 < 20GB	垂直扩容	热点数据
Redis Cluster	内存	无上限	TB 级	水平分片	分布式缓存
Memcached	内存	单实例 1GB	单实例 < 500MB	客户端分片	简单 KV
etcd	磁盘 + 内存	单集群 8GB	< 2GB（配置数据）	Raft 共识	服务发现、配置中心
RocksDB	磁盘 LSM	单实例 TB 级	单实例 < 500GB	垂直扩容	嵌入式存储
HBase	HDFS	PB 级	PB 级	Region 分裂	海量 KV

4、搜索引擎与分析型数据库

数据库	架构	理论最大容量	生产推荐容量	扩展方式	适用场景
Elasticsearch	分布式	单索引 PB 级	单分片 < 50GB	分片自动均衡	全文搜索、日志
Solr	分布式	无理论上限	单集群 < 100TB	分片扩展	企业搜索
ClickHouse	列式	无理论上限	PB 级	分片 + 副本	实时 BI
Hive	批处理	无上限	EB 级（阿里实践）	HDFS 扩展	离线数仓
Druid	实时 OLAP	无上限	PB 级	分布式扩展	实时指标
Presto/Trino	查询引擎	无上限	跨 PB 级数据源	横向扩展	联邦查询

5、对象存储与文件系统

存储类型	服务/系统	理论最大容量	生产推荐容量	扩展方式	适用场景
对象存储	阿里云 OSS	无限（按量付费）	EB 级	自动扩展	图片、视频、备份
对象存储	AWS S3	无限	EB 级	自动扩展	全球分发
对象存储	MinIO	无上限	PB 级	分布式扩展	私有云存储
分布式文件	HDFS	无上限	100PB+（字节实践）	DataNode 扩展	大数据存储
传统文件	NFS	依赖存储阵列	< 100TB	垂直扩容	共享文件

6、消息队列与流处理

系统	数据持久化	理论吞吐量	生产推荐	扩展方式	适用场景
Kafka	磁盘	百万 TPS/分区	单集群 < PB 级	分区扩展	日志采集、流计算
RocketMQ	磁盘	10 万 TPS/队列	单集群 < 100TB	队列扩展	电商交易
Pulsar	分层存储	无限（卸载到 S3）	跨集群	计算存储分离	云原生消息
RabbitMQ	内存/磁盘	万级 TPS	< 1TB	集群扩展	企业 MQ

关键结论与最佳实践

数据量级划分标准

规模	数据量	推荐方案
微型	< 10GB	SQLite、MySQL 单机
小型	10GB ~ 100GB	MySQL、Redis
中型	100GB ~ 10TB	MySQL 分库分表、MongoDB
大型	10TB ~ 1PB	TiDB、Elasticsearch、HBase
超大型	> 1PB	混合架构（专有分布式系统）

选型黄金法则
1.能用单库不用分布式 ：分布式带来 10 倍复杂度
2.缓存优先 ：80% 读场景加 Redis，性能提升 100 倍
3.时序数据必用时序库 ：TDengine 写入性能是 MySQL 的 100 倍
4.搜索场景必用 ES ：全文检索比 MySQL LIKE 快 1000 倍
5.对象存储代替自建：OSS 成本是自建磁盘的 1/3