一、三家公司(月之暗面Moonshot/Kimi、智谱清言、MiniMax)数据库完整清单
分关系库、向量库、数仓/日志、文件/对象、时序、缓存六大类,标注每家真实落地选型
(一)月之暗面 Moonshot(Kimi)
- 分布式关系型主库(用户/对话/订单/权限)
- TiDB Cloud:核心业务唯一OLTP库,支撑百万用户对话、文件绑定、付费订单、多租户隔离;Kimi"每用户独立知识库沙箱"依赖TiDB Serverless虚拟分库能力
- 本地调试轻量:SQLite(API调试工具MoonPalace本地记录请求日志)
- 向量数据库(长文本RAG、文档分片语义检索,Kimi核心)
自研分布式向量检索引擎(未完全开源),底层兼容Milvus架构;企业私有化交付配套Milvus - 日志&分析数仓
ClickHouse 做推理指标、API调用量、Token消耗离线统计;Kafka做消息队列削峰 - 文件/训练大存储
对象存储(阿里云OSS/自建对象)+ JuiceFS 存训练数据集、模型权重、用户上传PDF/Word原始文件 - 缓存
Redis集群:对话上下文临时缓存、限流、热点请求加速
(二)MiniMax(海螺AI、Talkie、ABAB大模型)
- 关系库
云上MySQL(阿里云RDS)+ TiDB混合;C端用户、会员、海外账号、企业API计费主存储 - 日志&可观测数仓(公开技术方案)
Apache Doris(SelectDB阿里云托管版):替换旧Loki,PB级训练/推理全链路日志,10亿日志秒查;搭配iLogtail采集、Kafka队列 - 向量库(多模态:文本/语音/数字人图文)
Milvus分布式集群;多模态向量统一入库,支撑Talkie虚拟形象知识库、企业RAG - 分布式文件存储
JuiceFS混合云存储,存MoE万亿参数模型权重、音频训练数据集、视频渲染素材 - 时序监控库
Prometheus+TDengine:GPU算力利用率、推理延迟、TTS/ASR实时吞吐指标 - 缓存
Redis Cluster:对话会话、音色模型配置、API鉴权缓存
(三)智谱华章(智谱清言、GLM、MaaS政企平台)
- 关系库(政企私有化+公有云双栈)
- 公有云:阿里云MySQL、TiDB
- 私有化交付:OceanBase、GaussDB、达梦(国产信创适配刚需)
- 向量库
Milvus为主;部分政务场景替换为PG+pg_vector降低部署复杂度;自研轻量向量索引嵌入GLM推理链路 - 数仓&评测数据
ClickHouse存储海量SFT/RLHF标注样本、模型评测分数、政企业务调用报表 - 大文件存储
自建分布式对象存储+JuiceFS,支撑GLM超大预训练数据集、行业知识库原文 - 安全&配置库
MongoDB存灵活结构数据:提示词模板、安全拦截规则、Agent工具配置、客户自定义Prompt集 - 时序/监控
Prometheus+InfluxDB监控集群GPU、训练任务进度、API错误率
二、大模型行业通用数据库分类与用途(实习必懂)
1. 关系型数据库(OLTP,结构化事务)
- 代表:TiDB、MySQL、OceanBase、PostgreSQL
- 用途:用户账号、订单、权限、对话基础元信息、企业租户配置、付费计费
- 为什么大厂爱TiDB:水平无限扩、兼容MySQL、多租户强隔离,适配AI爆发式用户增长
2. 向量数据库(RAG核心,语义相似度)
- 头部选型:Milvus(三家全部标配生产环境)、PgVector、Qdrant、Pinecone(海外)
- 用途:文档切片Embedding、知识库检索、多模态图文/音频特征匹配、样本去重聚类
3. 列式数仓(日志、评测、大数据分析)
- Apache Doris、ClickHouse
- MiniMax公开标杆案例:Doris扛PB级训练推理日志;Kimi/智谱用ClickHouse做离线指标统计
- 对比ES:Doris存储成本更低、聚合更快,适合AI海量时序日志
4. 文档/NoSQL
- MongoDB:不规则结构(标注数据、Prompt模板、Agent参数、用户自定义配置)
- SQLite:本地调试、小工具单机轻量存储
5. 时序数据库
TDengine、InfluxDB、Prometheus
监控GPU显存、推理QPS、token速度、任务排队时长、集群故障指标
6. 缓存&消息队列
- Redis:会话缓存、限流、热点Embedding、鉴权
- Kafka:日志削峰、训练数据流水线、异步任务分发
7. 分布式文件存储(超大模型/数据集)
JuiceFS、对象存储OSS、MinIO
存几十TB训练语料、几十GB模型权重、用户上传原始文件、多模态音视频素材
三、实习岗位对应会接触哪些库
- 算法实习生(评测/数据/微调)
Milvus(向量检索去重)、ClickHouse/Doris(读取评测指标)、JuiceFS(读取训练数据集)、MongoDB(读取SFT标注样本) - 工程后端实习生(RAG/推理服务)
TiDB/MySQL、Milvus、Redis、Kafka;写RAG全链路:文件分片→向量化→向量库写入→检索拼接上下文 - 算力基建/运维实习生
Doris/ClickHouse日志排查、Prometheus/TDengine监控、JuiceFS存储扩容、Slurm+存储挂载、GPU集群数据读写调优