企业级 Text-to-SQL 完整执行流程

衫水2026-04-21 10:44

企业级 Text-to-SQL 完整执行流程。

Text-to-SQL（也常被称为 NL2SQL）是一项将自然语言转换为结构化查询语言的技术。

简单来说，它就像一个"翻译官"，让你可以用大白话向数据库提问，系统会自动帮你写成数据库能听懂的 SQL 代码，然后查出结果。

你可以把这个流程直接作为开发蓝图，它涵盖了从用户提问到最终展示的全过程：

🚀 完整执行流程图解

非查询意图
查询意图
执行报错
是
否
执行成功
用户提问
意图识别与预处理
直接回复/闲聊
元数据检索
筛选出 Top-N 相关表结构
构建提示词与生成 SQL
沙箱试执行
重试次数 < 阈值?
收集错误信息 + 原始 SQL
返回错误提示
数据后处理与展示

📝 详细步骤拆解

第一步：意图识别与预处理

输入：用户自然语言（如"帮我查下张三上个月的销售业绩"）。
动作：
- 清洗：去除无意义字符。
- 分类：调用大模型判断意图。
  - 如果是闲聊（如"你好"、"你是谁"），直接由大模型回复，不进入数据库流程。
  - 如果是查询，提取关键实体（如"张三"、"上个月"）。
目的：过滤无效请求，节省 Token，防止恶意注入。

第二步：元数据检索

输入：用户问题 + 实体。
动作：
- 不要把所有表都给大模型。
- 使用向量检索或关键词匹配，从你的数据库元数据（表名、字段名、注释）中，筛选出最相关的 3-5 张表。(在表名或者数据字段不多的情况下，也可以把所有sheet和字段名给大语言模型)
- 获取这些表的 DDL（建表语句）或 Schema 信息。
目的：减少噪声，降低 Token 成本，提高准确率。

第三步：提示词构建与 SQL 生成

输入：用户问题 + 筛选后的元数据 + 业务术语定义。
动作：
- 组装提示词（Prompt）： "你是一个 SQL 专家。根据提供的表结构 $Schema$ ，回答用户问题： $Query$ 。请只输出 SQL 语句。"
- 调用大模型生成 SQL。
输出：初步生成的 SQL 语句。

第四步：沙箱试执行

输入：生成的 SQL。
动作：
- 安全拦截 ：检查是否包含 DELETE, DROP, UPDATE 等危险指令。如果是，直接拦截。
- 试跑：使用只读账号在数据库中执行该 SQL。
结果分支 ：
- 成功：进入第五步。
- 失败：捕获数据库返回的错误信息（如 Error: Column 'sales_amt' not found）。

第五步：自我修正

触发条件：沙箱执行报错。
动作：
- 将"错误信息" + "原始 SQL" + "正确的表结构"再次喂给大模型。
- 提示词："刚才的 SQL 执行报错了： $Error Message$ ，请修正它。"
循环：重复"生成 -> 试执行"的过程（建议限制最多重试 2-3 次，防止死循环）。

第六步：数据后处理与展示

输入：查询成功的结果集（JSON/列表）。
动作：
- 格式化：将数据转换为前端易读的格式。
- 可视化推荐：根据数据特征（如时间序列、占比），自动推荐图表类型（折线图、饼图）。
输出：最终展示给用户的界面。

💡 核心优化点总结

不要全量投喂 ：一定要做元数据检索，只给大模型看相关的表。
一定要做沙箱 ：用只读账号试跑，既能验证 SQL 对错，又能防止删库。
允许犯错但要学会改 ：加入自我修正机制，利用数据库的报错信息来反向优化大模型的生成结果。

按照这个流程开发，你的系统就已经具备了成熟商业软件（如 SQLBot、Cirboot）的核心能力了。

上一篇：Java学习笔记_Day35(多线程)

下一篇：HTML5中WebSocket构造函数及其初始化连接规范

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10几个好用的ip纯净度检测网站