当"查一下本季度各区域销售额"这样的业务问题,能够直接转化为精准 SQL 并实时返回可视化结果------企业数据分析的最后一公里,就这样被打通了。
一、为什么企业数据分析的门槛还是这么高?
在大多数企业里,数据分析师是最忙的人。
不是因为分析本身有多难,而是因为每一次业务人员想要看数据,都得先找分析师"帮我跑个数"。一句"帮我查下库存余额总量",背后往往是:提需求 → 等排期 → 写 SQL → 等执行 → 取结果 → 发截图,一整个链路下来,可能要几个小时。
问题的根源在于:数据存在数据库里,但业务人员说的是自然语言。 中间隔着一道 SQL 的墙。
Arilink 平台,正是为解决这道墙而来。
二、Arilink 是什么?
Arilink(语义治理与智能查询平台)是一个企业级语义层智能查询引擎,其核心能力是:让业务人员用中文自然语言提问,系统自动理解意图、发现数据关系、生成 SQL、执行查询、返回可视化结果。
整个过程,业务人员不需要写一行 SQL,不需要知道数据在哪个表,不需要了解任何数据库知识。
三、核心架构:四层各司其职
Arilink 采用清晰的分层架构设计,从上到下依次是:
┌─────────────────────────────────────────────┐
│ 用户应用层 · 自然语言查询界面 / 对话历史 │
├─────────────────────────────────────────────┤
│ 运营治理层 · 工作流编排 / 组件管理 / 审计 │
├─────────────────────────────────────────────┤
│ 语义治理层 · 业务指标 / 维度 / 映射规则 │
├─────────────────────────────────────────────┤
│ 治理支撑层 · 工单系统 / 歧义检测 / 知识补足 │
└─────────────────────────────────────────────┘
每一层职责清晰、层层支撑,形成完整的从用户提问到结果返回的闭环。
四、智能查询:六步推理,透明可见
这是整个平台最核心的能力,也是最体现技术含量的部分。
当用户输入"查询库存余额总量"这样的自然语言问题时,系统会经历六步推理:
|----|-----------|-------------------------|
| 步骤 | 名称 | 做了什么 |
| 1 | 意图识别 | 判断用户想要做什么类型的查询 |
| 2 | 同义词检索 | 在术语库中匹配"库存余额总量"对应的业务语义 |
| 3 | 澄清判断 | 如果信息不足,提示用户补充(如缺少时间范围) |
| 4 | 表间关系发现 | 调用 TeraLink 引擎,发现候选关联路径 |
| 5 | SQL 生成与验证 | 生成 SQL 语句并进行语法验证 |
| 6 | 查询执行与汇总 | 执行查询并汇总结果返回 |
每一步的推理过程,对用户是完全透明可见的------用户可以在结果页切换查看:摘要 / 推理过程 / 边界条件 / 生成的 SQL / 原始数据 / 可视化图表 / 各环节耗时。
这对于技术团队来说是一个巨大优势:AI 生成的 SQL 是可审计、可解释的,而不是一个黑箱。
五、双语义层:业务语言与数据的"双向翻译"
这是 Arilink有别于普通 Text-to-SQL 工具的关键设计。
大多数 NL2SQL 工具是"一锤子买卖"------用户问一句,系统生成一句 SQL。但Arilink的思路是构建一层语义抽象,让业务语言和数据语言形成稳定的映射关系。
5.1 业务语义层(业务人员视角)
在这一层,你定义的是业务人员真正关心的问题:
库存余额总量 → 哪些仓库?哪些商品?在什么时间?
仓库库存余额 → 按仓库维度聚合
商品库存余额 → 按商品维度聚合
仓库商品TopN → 哪些商品库存最多?
TopN商品占比 → 头部商品的库存占总库存的比例是多少?
5.2 数据语义层(数据管理员视角)
在这一层,管理员将业务语义映射到具体的数据字段:
库存余额总量 → inventory_balance_total
可计算因子:仓库、商品码、统计日期
来源表:inventory_xxx
单位:数量(个)
这种设计的精妙之处在于:映射是一次性配置的,之后所有相关的自然语言查询都会自动复用这套映射。业务人员无论怎么措辞表达,系统都能准确理解。
5.3 版本与灰度发布
映射规则支持完整的版本管理,支持设置灰度比例(0-100%),可以先让部分用户使用新规则,观察无误后再全量发布。这个设计在企业级系统中是标配,但在此类智能查询平台中却很少见到。
六、歧义检测与知识补足:让 AI 学会"不懂就问"
在实际业务中,语义歧义无处不在。比如用户问"发票金额",但系统中可能存在多个表的多个字段都叫"发票金额",甚至同一个表有多个版本。
Arilink 的做法是:当发现歧义时,系统不是猜一个答案,而是停下来,礼貌地请用户确认。
检测到:sales_invoice_record 表存在多个版本/定义
提示:以下字段均名为"发票金额",请选择您需要的:
A. sales_invoice_record_v1.invoice_amount
B. sales_invoice_record_v2.invoice_amount
这种"知之为知之,不知为不知"的设计哲学,是真正企业级 AI 应用的体现。
七、技术选型:务实而开放
LLM 层
当前使用**智谱 AI(glm-4.6v)**作为核心推理模型,同时支持 OpenAI、Kimi、Ollama 等多种接入方式。平台在 SQL 生成和通用语义理解上分别配置了独立模型,实现推理效果的精细调优。
数据源层
支持 MySQL(当前)、PostgreSQL、Oracle、SQL Server 四大主流关系型数据库,覆盖绝大多数企业数据环境。
血缘发现
通过集成 TeraLink 数据血缘引擎,实现跨表的关联路径自动发现,解决了 NL2SQL 领域最棘手的"表太多、关系太乱"问题。
八、给谁用?------典型场景分析
|-------|----------------|----------------------------|
| 使用角色 | 使用场景 | Arilink如何帮助 |
| 业务人员 | 查库存、看销售报表 | 自然语言提问,即问即答,无需等分析师 |
| 运营人员 | 潜在大客户识别、库存结构分析 | 预置工作流,一键生成分析报告 |
| 数据分析师 | 数据探索、快速原型验证 | 实时查看 AI 生成的 SQL,提升写 SQL 效率 |
| 数据管理员 | 维护业务语义标准、映射规则 | 语义治理后台,版本管理,灰度发布 |
| 运维人员 | 系统健康监控、工单处理 | 统一运维中心,工单全生命周期管理 |
九、总结:语义层是下一代数据分析的必由之路
Arilink 平台的本质,是构建了一个业务语义抽象层------它让业务语言和数据语言之间有了稳定的"翻译字典",而不是每次都靠 AI 临场发挥。
这一设计的长期价值在于:
沉淀:每一次正确查询都在积累语义资产,平台越用越聪明
治理:所有业务指标都有明确的数据定义,数据质量可追溯
效率:业务人员无需等待分析师,数据分析真正走向民主化
可控:SQL 可审计、映射可版本控制、发布可灰度------企业级合规要求全部满足
当数据分析的门槛从"会写 SQL"降低到"会说话",企业的每一个业务决策者,都能成为自己的数据分析师