企业级 Text-to-SQL 完整执行流程

企业级 Text-to-SQL 完整执行流程

Text-to-SQL(也常被称为 NL2SQL)是一项将自然语言转换为结构化查询语言的技术。

简单来说,它就像一个"翻译官",让你可以用大白话向数据库提问,系统会自动帮你写成数据库能听懂的 SQL 代码,然后查出结果。

你可以把这个流程直接作为开发蓝图,它涵盖了从用户提问到最终展示的全过程:

🚀 完整执行流程图解

非查询意图
查询意图
执行报错


执行成功
用户提问
意图识别与预处理
直接回复/闲聊
元数据检索
筛选出 Top-N 相关表结构
构建提示词与生成 SQL
沙箱试执行
重试次数 < 阈值?
收集错误信息 + 原始 SQL
返回错误提示
数据后处理与展示


📝 详细步骤拆解

第一步:意图识别与预处理
  • 输入:用户自然语言(如"帮我查下张三上个月的销售业绩")。
  • 动作
    • 清洗:去除无意义字符。
    • 分类 :调用大模型判断意图。
      • 如果是闲聊 (如"你好"、"你是谁"),直接由大模型回复,不进入数据库流程
      • 如果是查询,提取关键实体(如"张三"、"上个月")。
  • 目的:过滤无效请求,节省 Token,防止恶意注入。
第二步:元数据检索
  • 输入:用户问题 + 实体。
  • 动作
    • 不要把所有表都给大模型。
    • 使用向量检索或关键词匹配,从你的数据库元数据(表名、字段名、注释)中,筛选出最相关的 3-5 张表。(在表名或者数据字段不多的情况下,也可以把所有sheet和字段名给大语言模型)
    • 获取这些表的 DDL(建表语句)或 Schema 信息。
  • 目的:减少噪声,降低 Token 成本,提高准确率。
第三步:提示词构建与 SQL 生成
  • 输入:用户问题 + 筛选后的元数据 + 业务术语定义。
  • 动作
    • 组装提示词(Prompt): "你是一个 SQL 专家。根据提供的表结构 Schema,回答用户问题:Query。请只输出 SQL 语句。"
    • 调用大模型生成 SQL。
  • 输出:初步生成的 SQL 语句。
第四步:沙箱试执行
  • 输入:生成的 SQL。
  • 动作
    • 安全拦截 :检查是否包含 DELETE, DROP, UPDATE 等危险指令。如果是,直接拦截。
    • 试跑:使用只读账号在数据库中执行该 SQL。
  • 结果分支
    • 成功:进入第五步。
    • 失败 :捕获数据库返回的错误信息(如 Error: Column 'sales_amt' not found)。
第五步:自我修正
  • 触发条件:沙箱执行报错。
  • 动作
    • 将"错误信息" + "原始 SQL" + "正确的表结构"再次喂给大模型。
    • 提示词:"刚才的 SQL 执行报错了:Error Message,请修正它。"
  • 循环:重复"生成 -> 试执行"的过程(建议限制最多重试 2-3 次,防止死循环)。
第六步:数据后处理与展示
  • 输入:查询成功的结果集(JSON/列表)。
  • 动作
    • 格式化:将数据转换为前端易读的格式。
    • 可视化推荐:根据数据特征(如时间序列、占比),自动推荐图表类型(折线图、饼图)。
  • 输出:最终展示给用户的界面。

💡 核心优化点总结

  • 不要全量投喂 :一定要做元数据检索,只给大模型看相关的表。
  • 一定要做沙箱 :用只读账号试跑,既能验证 SQL 对错,又能防止删库。
  • 允许犯错但要学会改 :加入自我修正机制,利用数据库的报错信息来反向优化大模型的生成结果。

按照这个流程开发,你的系统就已经具备了成熟商业软件(如 SQLBot、Cirboot)的核心能力了。

相关推荐
SelectDB14 小时前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI15 小时前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI15 小时前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI15 小时前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
倔强的石头_1 天前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测
数据库
大大大大晴天2 天前
Hudi技术内幕:Key Generation原理与实践
大数据
zzzzzz3102 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
倔强的石头_4 天前
《Kingbase护城河》——数据库存储空间全景探测与精细化瘦身实战
数据库
云技纵横4 天前
唯一索引 INSERT 死锁实战:5 秒复现交叉插入的 S 锁循环等待
sql·mysql
冬奇Lab4 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm