企业级 Text-to-SQL 完整执行流程

企业级 Text-to-SQL 完整执行流程

Text-to-SQL(也常被称为 NL2SQL)是一项将自然语言转换为结构化查询语言的技术。

简单来说,它就像一个"翻译官",让你可以用大白话向数据库提问,系统会自动帮你写成数据库能听懂的 SQL 代码,然后查出结果。

你可以把这个流程直接作为开发蓝图,它涵盖了从用户提问到最终展示的全过程:

🚀 完整执行流程图解

非查询意图
查询意图
执行报错


执行成功
用户提问
意图识别与预处理
直接回复/闲聊
元数据检索
筛选出 Top-N 相关表结构
构建提示词与生成 SQL
沙箱试执行
重试次数 < 阈值?
收集错误信息 + 原始 SQL
返回错误提示
数据后处理与展示


📝 详细步骤拆解

第一步:意图识别与预处理
  • 输入:用户自然语言(如"帮我查下张三上个月的销售业绩")。
  • 动作
    • 清洗:去除无意义字符。
    • 分类 :调用大模型判断意图。
      • 如果是闲聊 (如"你好"、"你是谁"),直接由大模型回复,不进入数据库流程
      • 如果是查询,提取关键实体(如"张三"、"上个月")。
  • 目的:过滤无效请求,节省 Token,防止恶意注入。
第二步:元数据检索
  • 输入:用户问题 + 实体。
  • 动作
    • 不要把所有表都给大模型。
    • 使用向量检索或关键词匹配,从你的数据库元数据(表名、字段名、注释)中,筛选出最相关的 3-5 张表。(在表名或者数据字段不多的情况下,也可以把所有sheet和字段名给大语言模型)
    • 获取这些表的 DDL(建表语句)或 Schema 信息。
  • 目的:减少噪声,降低 Token 成本,提高准确率。
第三步:提示词构建与 SQL 生成
  • 输入:用户问题 + 筛选后的元数据 + 业务术语定义。
  • 动作
    • 组装提示词(Prompt): "你是一个 SQL 专家。根据提供的表结构 [Schema],回答用户问题:[Query]。请只输出 SQL 语句。"
    • 调用大模型生成 SQL。
  • 输出:初步生成的 SQL 语句。
第四步:沙箱试执行
  • 输入:生成的 SQL。
  • 动作
    • 安全拦截 :检查是否包含 DELETE, DROP, UPDATE 等危险指令。如果是,直接拦截。
    • 试跑:使用只读账号在数据库中执行该 SQL。
  • 结果分支
    • 成功:进入第五步。
    • 失败 :捕获数据库返回的错误信息(如 Error: Column 'sales_amt' not found)。
第五步:自我修正
  • 触发条件:沙箱执行报错。
  • 动作
    • 将"错误信息" + "原始 SQL" + "正确的表结构"再次喂给大模型。
    • 提示词:"刚才的 SQL 执行报错了:[Error Message],请修正它。"
  • 循环:重复"生成 -> 试执行"的过程(建议限制最多重试 2-3 次,防止死循环)。
第六步:数据后处理与展示
  • 输入:查询成功的结果集(JSON/列表)。
  • 动作
    • 格式化:将数据转换为前端易读的格式。
    • 可视化推荐:根据数据特征(如时间序列、占比),自动推荐图表类型(折线图、饼图)。
  • 输出:最终展示给用户的界面。

💡 核心优化点总结

  • 不要全量投喂 :一定要做元数据检索,只给大模型看相关的表。
  • 一定要做沙箱 :用只读账号试跑,既能验证 SQL 对错,又能防止删库。
  • 允许犯错但要学会改 :加入自我修正机制,利用数据库的报错信息来反向优化大模型的生成结果。

按照这个流程开发,你的系统就已经具备了成熟商业软件(如 SQLBot、Cirboot)的核心能力了。

相关推荐
pele2 小时前
HTML5中WebSocket构造函数及其初始化连接规范
jvm·数据库·python
HUGu RGIN2 小时前
探索Spring Cloud Config:构建高可用的配置中心
大数据·elasticsearch·搜索引擎
m0_515098422 小时前
如何创建哈希分区表_PARTITION BY HASH解决数据分布不均与热点块
jvm·数据库·python
qq_372906932 小时前
如何处理SQL循环逻辑_探索递归CTE实现复杂计算
jvm·数据库·python
m0_674294642 小时前
C#怎么使用Channel异步通道 C#如何用BoundedChannel实现有界队列限流异步数据流【进阶】
jvm·数据库·python
m0_748920362 小时前
HTML函数在系统更新后变卡是硬件老化吗_软硬兼容性排查【方法】
jvm·数据库·python
weixin_424999362 小时前
如何正确对对象键名进行字母序排序并存入数组
jvm·数据库·python
isNotNullX2 小时前
2026年国产数据同步工具对比评测:DataX、Canal、Flink CDC与FineDataLink深度横评
大数据·flink
maqr_1102 小时前
如何配置Oracle 19c审计清理_DBMS_AUDIT_MGMT自动清除策略
jvm·数据库·python