Agentic Analytics 时代,AI Agent 真正需要怎样的数据基座?

作者:马如悦,飞轮科技创始人

每个数据团队都熟悉这样的期待:业务用户用自然语言问一句:"上季度亚太区月活用户数是多少?"或"为什么华东仓的履约时效在过去两周下降了?"系统就能立即给出准确、可追溯、可行动的答案。这正是 Agentic Analytics 正在描绘的下一代分析体验。

相比传统 BI,Agentic Analytics 的变化不只是把问题换成对话框。它希望让 AI Agent 主动拆解问题、探索数据、验证假设,并在必要时触发后续行动。也因此,越来越多数据平台和 BI 厂商开始把它视为下一阶段的核心方向。

但许多 POC 项目很快会撞上现实:AI 助手不理解企业内部的业务口径,回答看似流畅却经不起追问;关键数据散落在数据库、数据湖、对象存储和历史数仓里,Agent 很难获得完整上下文;一旦查询稍微复杂,数十秒甚至数分钟的等待就会打断整个对话式体验。

这时,最常见的判断是: "模型还不够好。"

模型当然重要,但它不是唯一变量。一个再强大的 LLM,如果面对的是低性能、碎片化、缺少业务语义的数据系统,也很难稳定完成分析任务。Agentic Analytics 能否落地,很大程度上取决于底层数据基座是否具备三项能力:交互式分析性能、跨源数据统一访问,以及可被 Agent 理解的业务语义

核心观点:Agentic Analytics 的瓶颈往往不只在模型,而在数据基础设施。SelectDB / Apache Doris 通过实时分析引擎、湖仓一体联邦查询、语义建模能力与 MCP 接口,为 AI Agent 提供更快、更广、更可理解的数据访问能力。

Agentic Analytics 对数据基座的三项要求

  • 交互式极速分析:Agent 的推理循环会反复经历 Schema 探测、数据采样、SQL 生成、执行和修正。只有亚秒到数秒级响应,分析对话才能保持连贯。
  • 跨源数据统一访问:企业数据分布在 RDBMS、数据湖、数仓和对象存储中。Agent 需要直接访问完整数据视图,而不是等待长期 ETL 改造完成。
  • 内置语义上下文:LLM 并不知道企业内部如何定义"活跃客户"或"流失率"。语义层让 Agent 能按统一业务口径理解和查询数据。

这三项能力不是锦上添花,而是 Agentic Analytics 的基础条件。SelectDB 作为基于 Apache Doris 的云原生实时数据仓库,正好在这些维度上提供了完整支撑。

支柱一:实时极速分析,让 Agent 保持思考节奏

Agentic Analytics 与传统 BI 的重要区别在于:查询负载更加探索性,也更难预测。 仪表盘通常围绕固定指标和固定查询设计;AI Agent 则会根据问题不断调整聚合维度、筛选条件和时间窗口,生成大量相似但不完全相同的查询。底层引擎一旦响应缓慢,Agent 的分析链路就会被迫中断。

这正是 Apache Doris 擅长的场景。作为 MPP 实时分析数据库,Doris 面向高并发、低延迟的 OLAP 查询而设计,能够为 Agent 的多轮探索提供稳定的交互式性能。

  • 大规模低延迟查询:Doris 支持在大规模数据集上进行亚秒到秒级 OLAP 查询,让 Agent 的探索式分析能够及时返回结果。
  • 实时写入与即席查询并存:借助 Flink CDC、Kafka 等实时摄入能力,Agent 不仅能分析历史数据,也能观察正在发生的业务变化。
  • 物化视图与查询缓存:Agent 常常会产生大量相近查询。Doris 的物化视图和查询缓存可以减少重复计算,降低延迟与资源开销。

支柱二:湖仓一体,让 Agent 看见完整数据

在真实企业环境中,数据很少只存在于一个系统里。核心交易数据可能在 MySQL 或 PostgreSQL,分析数据在 Iceberg、Hudi 或 Hive 表中,日志和归档数据则分布在 S3、OSS、HDFS 等对象存储上。

如果为了让 Agent 工作而先发起一场大规模迁移,成本和周期都会非常高。更关键的是,在迁移完成之前,Agent 始终看不到完整数据,业务价值也会被延后。

SelectDB / Doris 采用更务实的方式:通过湖仓一体与联邦查询,把已有数据源纳入统一分析入口。 Doris 的 Multi-Catalog 架构支持透明访问多类数据源:

这意味着 Agentic Analytics 可以更早进入真实业务场景。Agent 不必等待所有数据完成搬迁,而是可以通过 Doris 的联邦查询,用统一 SQL 访问跨源数据。在产生业务价值之后,企业仍然可以逐步把高频数据迁移或优化到更合适的湖仓架构中。

支柱三:语义层与 MCP 接口,让 Agent 理解业务

LLM 本身并不了解企业内部的业务口径。它不知道"活跃客户"是指 30 天内有交易,还是 7 天内打开过 App;也不知道"流失率"应该按账户、用户还是设备计算。面对 tbl_usr_trx_v5 这样的表名,它更难判断背后业务含义。

这就是 语义层 的价值:把表、字段、指标和业务定义转化为 Agent 可以理解并稳定调用的上下文。SelectDB / Doris 可以从几个层面提供支撑:

  • 语义建模能力:SelectDB 和 Doris 已经支持 MetricFlow 等语义模型。Agent 访问的是治理过的指标口径,而不是直接面对裸表猜含义。
  • 统一 SQL 接口:无论数据来自实时写入、联邦查询还是湖上表,Agent 面对的都是统一 SQL 入口。这让"月收入""活跃客户"等指标可以在跨源数据上保持一致定义。
  • MCP 接口(Model Context Protocol) :SelectDB 可通过 MCP Server 让 Claude、ChatGPT、Cursor,以及基于 LangChain / LlamaIndex 构建的自定义 Agent,以标准化方式发现数据集、查询 Schema、检索语义上下文并执行受治理的 SQL。

借助 MCP,Agent 不需要为每个数据系统单独适配接口。一次接入后,主流 AI 客户端和自定义 Agent 就可以通过统一入口获得数据发现、语义理解和 SQL 执行能力。

不止于引擎:SelectDB Cloud 如何降低落地成本

Agentic Analytics 还会带来一个容易被低估的问题:查询负载更难预测。传统 BI 往往有固定刷新节奏和固定报表周期;Agent 则可能因为一次业务追问、一次异常检测或一次自动化任务,在短时间内发起大量临时查询。

这种负载模式天然适合弹性架构。SelectDB Cloud 通过存算分离和 Serverless 能力,让企业更容易控制 Agentic Analytics 的基础设施成本:

  • 存算分离、弹性扩缩容:计算资源和存储资源独立伸缩。查询高峰到来时扩容,高峰结束后缩回,避免为峰值长期保留闲置资源。
  • Serverless 免运维:数据团队可以把更多精力投入语义层建设、权限治理和 Agent 场景设计,而不是持续管理集群和容量水位。
  • 适合 Ad-Hoc 查询:Agent 会产生大量探索式、一次性查询。弹性架构可以按照实际使用量计费,降低试错和探索成本。

此外,阿里云 SelectDB 已推出 Serverless 版本。根据阿里云官方信息,该产品已于 2026 年 3 月正式商业化,可提供秒级弹性能力,为面向 Agent 的分析场景进一步降低基础设施成本。

SelectDB / Doris:Agentic Analytics 的最佳数据基座

回到 Agentic Analytics 对数据基础设施的核心要求,SelectDB / Apache Doris 的价值可以概括为: 换句话说,SelectDB 把实时分析引擎、湖仓联邦查询、语义建模、MCP 标准接口和弹性计算能力放在同一平台中。无论是 Claude、ChatGPT、Cursor,还是企业自建的 Agentic 应用,都可以通过统一入口,在治理过的语义视图之上,对跨源数据进行探索式分析。

"Agentic Analytics 的落地,不只取决于选择哪个 AI 模型,也取决于企业能否提供一个足够快、足够统一、足够有语义的数据基座。SelectDB / Apache Doris 的价值,正是在这里被放大。"

Agentic Analytics 正在改变数据分析的方式,让系统不仅回答问题,还能主动探索数据、发现业务洞见。但真正落地,需要的不只是模型,而是一套能够支撑实时分析、跨源访问、语义理解和弹性计算的数据基座。

6 月 11 日(本周四)SelectDB 产品发布会将系统展示 Doris / SelectDB 在实时分析、混合检索、Agentic Analytics、AI Agent 可观测、多模数据处理等方向上的最新能力,帮助企业为 AI Agent 打造稳定、可观测的分析环境。

相关推荐
weixin_549808362 小时前
从“大海捞针“到“精准定位“:易薪路AI人才罗盘如何用AI重构企业人才选拔与组织发展
大数据·人工智能·重构
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
java_cj2 小时前
Elasticsearch索引管理完全指南:从基础API到ILM生命周期管理
大数据·后端·elasticsearch·性能优化
Francek Chen2 小时前
【大数据处理与分析】MapReduce:05 MapReduce的具体应用
大数据·hadoop·分布式·mapreduce
城事漫游Molly2 小时前
AI赋能质性研究(六):跨案例比较分析,5个高质量 Prompt让AI帮你找模式
大数据·人工智能·prompt·ai for science·定性研究
Shawn Dev3 小时前
团队协作中的 Git Tag 最佳实践:从入门到精通
大数据·git·elasticsearch
方向研究3 小时前
科技创新三定律
大数据
T06205143 小时前
【数据集】企业合作研发强度(1986-2024年)
大数据
沉默王二3 小时前
阿里云 OCR+LiteParse,让扫描件 PDF 也能被 RAG 检索到!
github·agent·ai编程