今天的分享包含四方面内容。首先,谈谈企业在数据分析智能体(Agent)探索时所面临的挑战;其次,介绍 Aloudata Agent 的关键技术创新点;第三,作为首次亮相,我们将通过产品演示揭晓产品 1.0 版本的真实面貌;最后,简要展望未来的发展规划。
从企业发展历程来看,数据分析经历了三个阶段:传统 BI 阶段、敏捷 BI 阶段以及当前的智能 BI 阶段。在传统 BI 和敏捷 BI 阶段,数据分析主要聚焦于让有一定技术能力和分析技能的专业人员通过编写 SQL 或拖拉拽等方式查看和分析数据。进入智能 BI 阶段后,依托大模型的能力,企业数据分析迈向了面向更广泛的人群进行主动洞察和智能洞察的新阶段。随着 DeepSeek的出现, 加速了大模型的平权,企业实现"人人都是分析师"的愿景正逐步成为可能,数据民主化进程显著加速。

企业数据分析 Agent 建设挑战
企业级数据分析是一个低容错度的场景,尽管大模型目前的智能化水平有了快速的提升,但实现企业级分析场景的落地还面临着很大的挑战。
首先是意图理解挑战。 业务人员通常以口语化、业务化的方式表达需求,而数仓资产中的数据语言与之存在巨大差异,导致大模型难以直接跨越这一鸿沟实现精准理解。
其次,数据口径一致性挑战。 同一问题在不同时间或由不同业务人员提出时,可能得到差异化的结果,这种"幻觉"现象影响了分析结论的可靠性。
第三,场景覆盖度挑战。 当前有些企业已经进行了初步探索,但仅限于比较小的场景和有限范围的尝试。当分析需求扩展至更多业务场景或更大用户群体时,企业需投入高昂成本才能维持 80% 以上的精准度,场景覆盖能力有待提升。
第四,性能优化和成本平衡的挑战。 大模型本身并不擅长数据查询性能优化,直接生成查询 SQL 较难确保稳定的性能输出与成本之间的平衡。
第五,数据权限管控的挑战。 智能分析场景一定解决数据权限管控问题,避免问数时出现数据越权泄露。

企业数据分析 Agent 落地路径
目前,业界探索数据分析 Agent 主要采用 NL2SQL、NL2DSL2SQL 及 NL2MQL2SQL 三种路径。
第一, NL2SQL 路径。 通过自然语言生成查询 SQL 来实现问数,完全依赖大模型能力。此方案下,业务语义与数据语义难以对齐,问数准确率较低;同时,大模型生成的查询 SQL 难以实现性能优化;此外,由于缺乏权限管控机制,存在数据安全风险。
第二, NL2DSL2SQL 路径。 借助 BI 系统沉淀的数据集和报表作为大模型的知识库,大模型生成 BI 查询 DSL 再转换成数据查询 SQL。这种方案可以一定程度地提高问数的准确性。然而,该路径依赖于BI 中的数据集和报表,前期准备成本较高;同时受限于数据集和报表的覆盖范围,分析场景的灵活性和扩展性不足;此外,该方案仍无法解决报表指标口径不一致的问题。
第三, NL2MQL2SQL 路径。 这是包括我们在内的一些厂商探索的一个新方向,这种方式先由大模型将自然语言转化为对指标语义层的查询请求(MQL,Metrics Query Language),再由指标平台将指标和维度的查询与计算逻辑转化为准确的 SQL 查询语句。其最大优点在于引入指标语义层,实现自然语言意图与指标口径的精准对齐,从而显著提升了问数的准确性和可靠性。同时,指标语义层具备查询性能优化能力,并支持基于指标的权限管理,既可解决数据口径不一致问题,又能确保数据安全管控。

三种路径的差异表明,企业数据分析 Agent 的核心竞争力不在于模型或算力,而在于企业知识库的构建。 所以接下来我们来分析一下,怎样的知识库才能实现更好的智能问数效果。
第一种,基于报表语义层的知识库虽能实现基础语义映射,但受限于预定义指标的固定性,难以支持业务人员动态组合指标与维度的深度分析需求,且无法解决报表间数据口径不一致的固有缺陷,因此难以满足智能洞察场景的灵活性与准确性要求。
第二种,基于宽表模型构建的语义层仍存在显著局限:其一,分析灵活性受限于宽表已固化加工的指标与维度组合,业务人员无法突破预定义的模型框架自由组合;其二,宽表模型存在指标冗余定义,同一指标(如销售额)在不同宽表中可能按会员、商品等不同维度重复构建,大模型在多指标场景下会召回存在口径冲突的结果。
因此,我们认为理想的企业语义知识库应该是基于数仓明细数据沉淀的指标语义层。
其一,支持从明细数据逐层聚合的弹性分析,业务人员可自由组合指标、维度与统计周期,实现从宏观汇总数据到明细下钻的全场景覆盖;
其二,知识库维护成本显著降低,仅需定义原子指标和维度即可,问数的同时 Agent 可基于原子指标动态添加统计周期、筛选条件、同环比、排名等分析要素,无需预先固化所有分析路径;
其三,指标要素化设计,标准化定义,既保障了数据口径的一致性,又赋予业务人员近乎无限的分析组合能力,从而在语义对齐与灵活性之间达成最优平衡。

具体来看,明细级语义层的能力体现在以下方面:
第一,标准化指标定义。 一方面降低指标定义门槛,零代码界面化操作,通过业务语义完成指标口径逻辑表达;另一方面在定义指标的时候可以对指标名称和口径进行判重,确保沉淀的语义资产具有唯一性,避免歧义。
第二,明细级语义沉淀。 通过明细事实表与维度表的关联机制,可实现公共层数据资源的全场景覆盖:任意事实与维度组合的跨表的动态分析需求均能得到满足。
第三,智能化加速路由。 针对明细级指标定义可能引发的查询性能担忧,NoETL 指标平台通过物化加速和智能路由技术,将用户提交的明细数据查询请求自动改写为预计算表查询路径,预计算表的生成与维护过程完全由系统自主完成,无需人工干预。既满足业务场景的灵活分析需求,又规避了明细数据查询的性能瓶颈。
第四,灵活查询时衍生。 无需预定义全部指标,仅需维护原子指标和维度即可支撑复杂业务场景的灵活问答,无需投入巨大精力构建企业知识库。

Aloudata Agent 关键创新
01.NL2MQL,实现准确、灵活、快速、安全的数据问答
在技术实现层面,采用 NL2MQL2SQL 的技术路线。首先,指标语义层沉淀了最全、最丰富的指标和维度的元数据,作为大模型的知识图谱底座,帮助大模型提升意图识别精准度。
用户查询经大模型语义解析后,将其转换为指标、维度及筛选条件的组合表达,并生成面向指标平台的 MQL,Aloudata CAN 指标平台的语义引擎将 MQL 转换为准确和可执行的查询 SQL,语义引擎内置函数体系与 SQL 解析器,确保语义转换的 100% 准确性。生成的 SQL 经智能物化加速、查询改写等优化后,由数据库引擎执行查询,最终返回结果严格遵循指标粒度的行级/列级数据权限控制,如客户经理仅能获取其负责客户的销售数据。

02. 基于 COT 和 ReACT 的多 Agent 架构,高效解决复杂分析问题
Aloudata Agent 充分利用大模型的思维链能力规划查询过程。针对复杂业务问题,通过 COT 将问题拆解为子任务,基于 ReAct 调用各子 Agent ,结合短期记忆(会话上下文)与长期记忆(含用户历史问题、部门偏好术语、企业通用表达)并行执行。该架构能够将复杂的问题简单化,通过有效规避了模型幻觉问题,支持从数据查询到洞察生成的完整分析链路,各子 Agent 在协同过程中持续积累业务经验,提升复杂问题处理能力。

03.基于指标语义层和 RAG,提升意图识别的准确性
通过结合指标语义层和 RAG(检索增强生成),显著提升了大模型意图识别的准确率和指标与维度召回的精准度。具体流程如下:
当用户提出问题时,Agent 首先判断用户意图,例如区分是查询指标口径、获取数据还是生成综合分析报告。
随后,通过向量检索、ES 文本检索以及 KV 关联指标检索等多路召回技术高效检索指标语义层沉淀的指标元数据信息、维度元数据信息、指标血缘关系和逻辑模型关联关系,确保指标与维度的精准召回。
在检索到相关指标和维度后,Agent 会进行二次选择,确保精准定位用户需求。根据问题的复杂度,可能生成一个或多个 MQL(Metrics Query Language)查询。随后,Aloudata CAN 指标平台语义引擎将 MQL 自动转换为底层 MPP 引擎可执行的 SQL,返回查询结果,再由 Agent 将查询结果生成符合用户意图的回答(如指标口径、指标值、图表或分析报告)返回给用户。

04. 以指标为中心高阶分析能力集成,促进更深度的分析洞见
第一,智能指标关键维度挖掘。 基于既有维度和历史指标查询行为,自动识别关键分析维度。由于数据表中字段众多,但并非每个字段都具有相同的分析权重,所以 NoETL 指标平台会捕捉记忆常用查询维度,如产品、区域、客户群等。通过挖掘关键维度,在用户询问如销售额时,能够结合热门维度呈现和归纳。
第二,智能指标关联因子挖掘。 在 NoETL 指标平台中已经沉淀了指标的血缘关系。可清晰识别指标间的层级关联与依赖关系。例如,将多组指标进行组合分析时,可发现指标间存在的关联关系和因子关系。基于指标血缘与查询行为的分析,可为深度洞察业务现象及分析问题根因提供数据支撑。

Aloudata Agent 产品能力
从产品架构层面,Aloudata 智能数据分析方案包含两层能力。
第一层为指标语义层(Aloudata CAN 指标平台),作为企业级知识库承担 DWD 层模型接入与语义建模的职能:直接对接明细数据,基于星型模型、雪花模型等构建语义模型,生成虚拟大宽表;建立标准化指标管理体系,形成可复用的知识资产库。
往上, Aloudata Agent 这一层,开放对接各种大模型(千问、DeepSeek 、GPT 等)。通过标准化接口与协议适配,实现多模型能力统一调用,利用大模型在自然语言理解、任务规划及工具链编排方面的优势,完成用户意图理解、复杂任务拆解及工具调用。该层已沉淀四大核心能力模块:自然语言的智能问数、智能归因、智能的数据解读和智能的报告生成。
基于上述能力体系,未来我们也会进一步围绕着企业的应用场景打磨子 Agent。例如:针对经营分析场景的 Agent,针对门店管理的 Agent 以及针对风控需求的风险预警 Agent。

Aloudata Agent 产品特性
一是分析过程透明化,向用户完整呈现数据处理逻辑;
二是指标口径可追溯,所有指标均附带定义口径说明,确保不同业务角色对同一指标的认知统一;
三是交互式引导与追问,在分析过程中嵌入交互式的引导与追问功能,提升操作便捷性;
四是用户可理解可干预,用户可直接对大模型返回的初始结果进行修正,支持时间维度扩展(如将"本月至今"调整为"全年")、指标切换等界面操作,无需重新输入查询条件。
总结与展望
总结一下,Aloudata Agent 依托企业明细级指标语义层知识库及大模型能力,形成五大核心优势:
第一是准确,基于 NL2MQL2SQL 的路径,解决业务语言与数据语言间的语义鸿沟,提升意图识别精度,实现 SQL 翻译零误差。
第二是全面,基于明细指标语义层,支持用户通过多维度、多指标组合筛选生成派生或衍生指标,以维护有限知识库覆盖多样化业务场景。
第三是聪明,采用 COT 与 ReAct 架构,将复杂分析问题拆解为可执行子任务,增强复杂问题处理能力。
第四是友好,提供交互式引导功能,支持引用、跳转、下钻等操作,优化用户体验。
第五是安全,通过指标语义层行级/列级权限控制,确保数据访问严格遵循企业安全策略,杜绝数据越权风险。

展望未来,Aloudata Agent 的核心发展方向是打破数据分析场景限制,将其能力深度嵌入企业业务流程中。为此,我们计划于今年下半年推出 Aloudata Agent 的 MCP(模型上下文协议),通过开放 MCP 助力企业快速基于自身业务场景构建 AI 应用生态,例如策略优化 AI、商品管理 AI、风险控制 AI 等场景应用。同时,将持续优化 Aloudata Agent 的基础能力:强化异常诊断功能;增强分析报告可视化效果等。
