Text2SQL智能问答系统开发（一）

开发一个面向企业的chatBI工作流

已完成

基础 Text2SQL 功能实现
实现用户输入自然语言问题后，系统能够自动生成 SQL 并执行返回结果。
用户交互优化
支持用户通过补充信息对查询进行调整，提升易用性。
模糊时间处理机制
对"最近""近期"等模糊时间关键词进行补全或引导，提升时间表达准确性。

后续优化

预定义高频问题与回答
对一些可预见的问题设置高质量回复，提高响应质量和效率。
构建高质量知识库
针对数据结构、字段定义、样例问题等，持续完善知识库，确保 SQL 生成的准确率。
引入持续学习机制
通过用户反馈和历史数据，不断优化模型能力与表现。

核心能力分析：用户问题分类

Text2SQL 的核心是理解用户意图。为此，我设计了一个问题分类机制，以便动态路由不同类型的问题到合适的处理流程中：

1. 直接提问类（Direct Ask）

例子："今年公司订单销量为多少？"
处理流程：自然语言 → 表名识别 → SQL 生成 → 执行 → 返回结果

2. 补充或修正类（Refine or Clarify）

例子："我指的是3月的订单" 、"只看前5个客户"
处理流程：

获取上次提问或SQL上下文
添加或替换时间、字段、过滤条件
重新生成SQL或进行增量修正
执行并返回

3. 异常反馈类（Error Feedback）

例子："SQL 报错了" 、"字段错了" 、"PG 不支持这个写法"
处理流程：

判断是语法错误还是逻辑错误
- 语法错误：尝试修复 SQL，确保符合数据库类型（MySQL/PostgreSQL 等）
- 逻辑错误：引导用户澄清查询意图
附带错误上下文，重新生成 SQL

4. 格式要求类（Result Formatting）

例子："生成表格" 、"我要柱状图" 、"只返回数字"
处理流程：

保持 SQL 不变，仅调整输出格式
根据用户偏好选择展示方式（图表、表格、纯文本等）

最终分类汇总

分类标签	描述	处理备注
direct_query	用户提出独立的新查询问题	走完整 SQL 生成流程
refine_query	补充时间/字段/条件等限制	结合对话上下文再生成 SQL
sql_error_feedback	用户反馈 SQL 错误	修复或引导重新提问
format_request	用户要求以特定格式展示结果	格式包装，不重生 SQL
reset_or_abort	用户中断或重启对话	清除上下文，重置状态
other	暂不归类的其他问题	等待进一步分析或澄清

工作流核心流程图

🔁 用户意图识别模块

为实现分类判断，系统中设计了一段 prompt 用于意图识别：

plain 复制代码

你是一个精确的用户意图识别助手，专门用于一个多轮问答的 SQL 生成系统。
请你阅读用户的当前输入，并判断这句话的意图属于以下哪一种（只返回标签，不要解释）：
- direct_query
- refine_query
- sql_error_feedback
- format_request
- reset_or_abort
- other
当前用户输入是：
""" 开始 / sys.query """

智能补全用户问题

当用户问题不完整时，我们使用另一个 prompt 完成补全：

plain 复制代码

你是一个智能助手，擅长将不完整的查询补全为简洁、自然的提问句。
请根据以下内容补全提问：
用户原始问题：会话变量 / last_question；
附加信息：开始 / sys.query；
将附加信息融合到用户问题中，若是词语解释，请替换原词；若是限制条件，请补充进问题中。
仅返回最终补全后的提问句，不要解释、不加修饰。

例如：

原始问题："查询最近的信息"
补充信息："2020年前"
输出："查询2020年前的信息"

工具与参考

会话变量机制：用于保存用户上下文，如 last_question、last_sql、last_result 等，支持多轮对话。
插件工具：参考 Dify 插件系统
Dify Database 插件

测试示例

模糊时间处理：

user：查询最近工单量
sys：请明确时间
usr：2020年前
sys：生成并执行 SQL

多轮提问：

usr：系统中每年的订单数分别是多少
sys：直接生成 SQL 并返回图表

结果格式修改：

usr：我要折线图返回结果
sys：直接返回图表结果

如果你对 Text2SQL、意图识别或多轮问答系统有兴趣，欢迎交流探讨！