【RAGFlow代码详解-4】数据存储层

RAGFlow 使用关系数据库（MySQL 或 PostgreSQL）作为主要元数据存储，通过具有连接池和重试机制的 Peewee ORM 进行管理。

数据库连接通过 service_conf.yaml 和环境变量进行配置。该系统支持具有可配置连接池的 MySQL 和 PostgreSQL：

数据库连接参数从 service_conf.yaml 加载，支持连接池、超时配置和自动重新连接处理。

系统使用几个关键模型类，通过自动时间戳管理扩展 BaseModel：

Model	目的	关键字段
Document	文档元数据和处理状态	id、kb_id、parser_id、名称、大小、token_num、chunk_num
Knowledgebase	知识库配置	id、tenant_id、letter、embd_id、parser_config
Task	文档处理任务	id、doc_id、进度、progress_msg、retry_count
File	文件系统元数据	id、名称、位置、大小、类型
TenantLLM	每个租户的 LLM 配置	llm_factory、tenant_id、llm_name、api_key
User	用户帐户信息	ID、电子邮件、昵称、密码 access_token
UserTenant	用户-租户关系	user_id、tenant_id、角色、状态

RAGFlow 支持用于矢量和全文搜索的多个文档存储后端：Elasticsearch、Infinity 和 OpenSearch。抽象层允许通过 DOC_ENGINE 环境变量透明地在实现之间切换。

所有文档存储实现都扩展了 DocStoreConnection 抽象基类，提供了统一的接口。后端在初始化时根据 DOC_ENGINE 环境变量选择，配置从 service_conf.yaml 加载和单例连接管理。

ESConnection 类提供复杂的查询功能，混合搜索结合了向量相似性和全文匹配，使用 conf/mapping.json 中定义的模式：

搜索方法构造复杂的布尔查询，将术语筛选器、向量相似性和全文搜索与 mapping.json 中动态模板定义的字段映射相结合。

InfinityConnection 提供高性能矢量搜索，包括连接池和从 conf/infinity_mapping.json 迁移模式：

该系统使用连接池和自动模式迁移，并将搜索条件转换为 Infinity 的查询构建器 API，同时保持每个知识库的表组织。

RAGFlow 通过 STORAGE_IMPL 单例支持多个对象存储后端，可通过 STORAGE_IMPL_TYPE 环境变量进行配置。支持的实现包括 MinIO、AWS S3、Azure Blob Storage 和阿里云 OSS。

storage_factory.py 中的 get_storage_impl（） 工厂函数实现了工厂模式，允许在存储后端之间无缝切换。每个实现都提供相同的接口方法：put（）、get（）、rm（）、obj_exist（） 和 get_presigned_url（）。

Redis 层提供分布式任务排队、会话管理和缓存功能。系统支持 Redis 和 Valkey（Redis 分支），如 pyproject.toml 中配置的那样。Redis 配置从 service_conf.yaml 加载，并带有密码身份验证和数据库选择。

Redis 有多种用途：与优先级队列的任务协调、Flask 会话存储、用于成本优化的 LLM 响应缓存以及用于性能的文件缓存。

任务执行遵循具有进度跟踪和错误处理的结构化管道：

每个任务都通过块构建、嵌入生成和文档存储插入进行，并具有全面的错误处理和重试机制。

服务层通过封装数据库作和业务逻辑的专用服务类提供高级数据访问模式。

每个服务类都提供特定于域的作，同时从 CommonService 继承通用 CRUD 功能。服务处理用户身份验证、知识库管理和文档处理工作流。

知识库服务提供全面的知识库生命周期管理，包括访问控制和配置管理：

该服务包括复杂的访问控制逻辑，用于检查所有权和团队成员权限。

数据层组件协同工作以支持完整的文档处理和检索管道：

集成数据层支持实时作和批处理工作流，并在所有存储系统中实现一致的状态管理。