新业务上线前夕,核心数据表的设计通常已通过初步验证。在一个基于 Apache Doris 架构的多租户分析场景下,工程师采用几组测试数据进行验证,结果显示数据分布均匀、秒级返回,符合上线标准。
然而,在部署上线的最终审查阶段,团队的 AI 助手基于底层架构规则扫描,发出了合规警告:
设计隐患提示 :当前 DDL 虽符合语法,但分桶键选用了高度倾斜的列
tenant_id。一旦未来具备海量业务流的头部客户接入,Apache Doris 的分桶(Bucket)机制将导致真实的写入负载集中于单一节点,造成其余节点空转。优化方案 :将分桶键改为更均匀的列(如随机分桶或结合自增 ID),并将
tenant_id移至排序键前缀。此方案可在消除写入热点的同时,保障高频查询的响应效率。
这一工业实践揭示了企业级基础设施领域正在发生的变化:通用大模型能力的演进,正在推动数据库的交互界面进行代际跃迁:从面向人类专家的传统界面,转向面向 AI Agent(智能体)的协作接口。
通用 AI 在复杂数据库运维中的三大效能瓶颈
现代分析型数据库(OLAP)为了追求极致性能,引入了分区、分桶、索引、物化视图以及多计算集群等复杂的架构设计。
许多技术团队尝试将官方文档或最佳实践白皮书作为知识库喂给通用大模型,但在工业级生产环境的实际落地中,AI 在以下三个核心领域依然存在明显的效能瓶颈:

- 架构与容量规划的边界决策
容量规划无法单纯依靠数据总量进行绝对推导,而需综合平衡多重并发负载。例如在 IoT 场景中,系统需同时兼顾高吞吐写入与低延迟点查。配置过低会导致系统在高负载下崩溃,配置过高则会产生资源闲置成本。这种在多方限制下寻找最优解的决策能力,难以仅靠阅读文档获取。
- 表设计调优的线索割裂
在 OLAP 体系中,数据表结构设计(Schema)本质上是一份性能执行计划。当查询性能发生变慢时,诊断线索往往分散在长达数千行的查询 Profile(执行计划日志)中。大模型由于缺乏领域工程经验,难以在密集的字段间进行交叉印证,容易给出盲目增加索引或扩容集群的低效建议。
- 云上运维的不可逆风险
托管云虽然屏蔽了物理硬件的复杂性,但平台层的策略决策仍具高度敏感性。例如,切换 Warehouse 会断开活跃会话,部分云端缓存扩容在 API 规则限制下无法逆向缩回。AI 如果缺乏前置的校验机制与风险感知,其自动生成的指令可能会对生产环境的安全运行造成威胁。
数据库交互方式:从机器可读到 Agent 友好
过去,数据库命令行工具(CLI)的输出主要服务于人类专家,采用的是 ASCII 字符表格等非结构化或半结构化文本。这在 AI Agent 的视角下,极易导致上下文窗口(Context Window)的无效损耗。

企业若要让 AI Agent 真正参与基础设施的运维,数据库工具链必须进行面向 Agent 的原生重构。

面向 Agent 的原生工具链需具备三个标准属性:
- 可组合性(精简高效):工具在自动化环境下默认输出结构化数据,支持 Agent 高效裁剪与重组非核心信息,避免原始日志超出大模型的上下文预算。
- 无状态与幂等性(环境安全):身份凭证通过隔离通道传输,不读写本地文件。同时,针对云端写操作引入唯一的任务 ID 机制,在网络波动或重试场景下,提供天然的防重复下发防线。
- 错误自愈(线索联动):改变传统模糊的报错提示,将错误重构为包含"直接原因"与"下一步修复指令"的结构化对象。

SelectDB 落地实践:两类 Skill 与两个 CLI 的闭环协同
为了将资深专家的隐性经验转化为可驱动的工程化成果, Apache Doris 及 SelectDB 提出了 CLI+ Skill 协同设计。
我们将领域工程知识封装为 Agent 可挂载的可执行工作流(Skill),将底层工具链重构为 Agent 友好的执行接口(CLI),并将其划分为内核侧 与管控面侧两个协同闭环,恰好覆盖前面提到的三个难点领域 。

- 内核侧协同(doris-skills + doriscli):
doris-skills负责沉淀 Apache Doris 的内核最佳实践(涵盖架构容量、数据模型选型、表设计校验及慢查询诊断);doriscli则作为高效的双手,负责与数据库内核深度交互,精准提取结构化的诊断快照。这一组合解决"架构容量规划"与"表设计调优"两大难点。适用于自建 Apache Doris 与 SelectDB Cloud。 - 管控面侧协同(selectdb-cloud-skills + cloudcli):
selectdb-cloud-skills负责沉淀云上安全行为规范与自动化编排经验(涵盖网络打通、集群弹性缩扩容、计费与审计等);cloudcli则负责与云端管控面安全对接。这一组合专门解决"云上运维"的隐性成本与单向 API 风险,需要 SelectDB Cloud。
这并不是简单的文档分类,而是具备明确的触发边界。每类 Skill 都规定了在何种业务场景下被激活、何时进行跨边界的任务交接。
例如,当用户在规划新业务时,容量规划与表设计校验会在同一轮交互里完美接力(同属 doris-skills);而一旦技术讨论的话题转向"如何根据规划自动扩容集群"或"打通私有网络",接力棒就会悄无声息地传递到 selectdb-cloud-skills 手中,由 cloudcli 去执行云端底层的安全变更。
通过这种机制,Agent 在一轮整体交互中,既完成了数据库内核的深度调优,又安全地实现了云端基础资源的按需弹性变配。
结束语
AI Agent 的快速发展,正在倒逼企业级基础设施厂商重新审视底层工具链的交付标准。CLI 已不再仅仅是供人类工程师输入指令的传统界面,而是上升为企业释放 AI 生产力的关键使能层。这一关于 Agent 原生数据基础设施的完整思考,也将在即将到来的发布会揭晓。
对于企业决策层而言,工具链对 AI 的友好程度,直接决定了企业智能化运维(AIOps)的效能边界与安全底线。SelectDB 在结合 Apache Doris 内核特性以及云原生管控上的前沿探索,正是为了帮助企业将专家的隐性经验转化为可执行的数字资产,推动数据基础设施稳健地迈入 Agent 原生时代。我们欢迎各行业的技术与管理团队开展共创,在真实业务负载中验证其技术价值。