DeepSeek-R1 实战：数据分析

前言

在上一篇专栏中，我们利用 DeepSeek + RAG 搞定了 PDF、Word 等非结构化文档 的知识问答。但在企业的核心资产中，还有这另一半壁江山------躺在数据库里的结构化数据。

试想这样一个场景：

产品经理问："上个季度，华东地区销量前三的产品是什么？"

在过去，这需要后端开发或 DBA 手写 SQL，导出 Excel，再发给 PM。

而今天，我们将利用 DeepSeek-R1 强大的逻辑推理能力，把自然语言直接转化为 SQL 语句，让数据库"开口说话"。

本文将带你实现一个生产可用的 Text-to-SQL 引擎，支持多表关联查询，并具备防注入和错误自动修正能力。

一、为什么是 DeepSeek-R1？

Text-to-SQL（文本转 SQL）一直是 AI 领域的难点。因为 SQL 是一种逻辑极度严密的语言，错一个标点、选错一个字段（Hallucination），程序就会报错。

DeepSeek-V3 (Chat模式)： 适合生成简单的 SELECT * FROM table。
**DeepSeek-R1 (Reasoning模式)：**R1 具备思维链（CoT），它在写 SQL 之前，会先"思考"：

"用户需要查华东地区，我需要关联 orders 表和 regions 表，通过 region_id 连接，然后按 amount 降序排列..."

这种"三思而后行"的特性，使其在处理复杂的 多表 JOIN 和 嵌套查询 时，准确率远超普通大模型。

二、核心架构设计

为了保证系统的健壮性，我们不能简单地把问题丢给 AI，必须构建一个闭环：

Schema 提取： 把数据库的表结构（DDL）喂给 AI。
Prompt 构建： 注入"只读"指令，防止删库。
SQL 生成： DeepSeek 输出 SQL。
沙箱执行： 在只读权限下运行 SQL。
结果解释： 将查询结果（List/Tuple）转换回自然语言。

三、实战代码：构建 SQL Agent

我们将使用 Python 标准库 sqlite3 演示（生产环境可无缝切换 MySQL/PostgreSQL）。

1. 准备测试数据

我们创建一个模拟的电商数据库：用户 (Users) 和订单 (Orders)。

python 复制代码

import sqlite3

# 初始化内存数据库
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# 建表
cursor.executescript('''
    CREATE TABLE users (
        id INTEGER PRIMARY KEY,
        name TEXT,
        city TEXT
    );
    
    CREATE TABLE orders (
        id INTEGER PRIMARY KEY,
        user_id INTEGER,
        amount REAL,
        date TEXT,
        FOREIGN KEY(user_id) REFERENCES users(id)
    );
    
    INSERT INTO users VALUES (1, '张三', '北京'), (2, '李四', '上海'), (3, '王五', '北京');
    INSERT INTO orders VALUES (101, 1, 200.5, '2023-01-01'), (102, 1, 500.0, '2023-01-02'),
                              (103, 2, 1200.0, '2023-01-03'), (104, 3, 300.0, '2023-01-04');
''')
conn.commit()

2. 获取数据库 Schema

DeepSeek 不知道你数据库里有什么表，所以第一步是动态获取表结构。

python 复制代码

def get_schema(conn):
    schema_str = ""
    cursor = conn.cursor()
    # 获取所有表名
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
    tables = [row[0] for row in cursor.fetchall()]
    
    for table in tables:
        # 获取建表语句 (DDL)
        cursor.execute(f"SELECT sql FROM sqlite_master WHERE type='table' AND name='{table}';")
        schema_str += cursor.fetchone()[0] + ";\n"
    return schema_str

database_schema = get_schema(conn)
# print(database_schema) 
# 输出将包含 CREATE TABLE users... CREATE TABLE orders...

3. 核心 Prompt 工程

这是本文的精华。我们需要设计一个 System Prompt，既要让 DeepSeek 理解结构，又要限制它的危险行为。

python 复制代码

SYSTEM_PROMPT = f"""
你是一个专业的数据库管理员和数据分析师。
你的任务是根据用户的自然语言问题，编写可以在 SQLite 中运行的 SQL 查询语句。

【数据库结构】
{database_schema}

【重要规则】
1. 只输出 SQL 语句，不要输出 Markdown 格式（如 ```sql ... ```），直接输出纯文本。
2. **严禁使用** INSERT, UPDATE, DELETE, DROP 等修改数据的命令，只能使用 SELECT。
3. 如果需要计算，请直接在 SQL 中完成（如 COUNT, SUM, AVG）。
4. 字段名必须严格匹配数据库结构，不要猜测。
"""

4. 连接 DeepSeek 执行查询

python 复制代码

from openai import OpenAI
import os

client = OpenAI(
    api_key="你的API_KEY",
    base_url="https://api.deepseek.com"
)

def text_to_sql(user_query):
    # 1. 让 DeepSeek-R1 生成 SQL
    response = client.chat.completions.create(
        model="deepseek-reasoner", # 使用 R1 模型
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": user_query}
        ]
    )
    
    # 提取 SQL (R1 可能会包含思考过程，我们只需要最终回答)
    sql_query = response.choices[0].message.content
    # 简单的清洗，去除可能存在的 markdown 符号
    sql_query = sql_query.replace("```sql", "").replace("```", "").strip()
    
    print(f"🤖 生成的 SQL: {sql_query}")
    
    try:
        # 2. 执行 SQL
        cursor = conn.cursor()
        cursor.execute(sql_query)
        results = cursor.fetchall()
        columns = [description[0] for description in cursor.description]
        
        return columns, results
        
    except Exception as e:
        return None, f"SQL 执行错误: {str(e)}"

# --- 测试 ---
query = "北京的用户总共消费了多少钱？"
cols, data = text_to_sql(query)

print(f"📊 查询结果: {data}")

运行预期：

DeepSeek-R1 会生成类似这样的 SQL：

sql 复制代码

SELECT SUM(T2.amount) FROM users AS T1 JOIN orders AS T2 ON T1.id = T2.user_id WHERE T1.city = '北京';

它能正确识别出需要 JOIN 两张表，并按 city 过滤。

四、进阶技巧：SQL 自愈机制 (Self-Healing)

在实际开发中，AI 可能会生成错误的 SQL（比如字段名拼错）。高阶的 Agent 应该具备"自我反思"的能力。

如果 cursor.execute(sql_query) 抛出异常，我们不要直接报错给用户，而是把错误信息抓取下来，回传给 DeepSeek：

"你刚才生成的 SQL 报错了，错误信息是：no such column: usr_id。请修正。"

代码片段：

python 复制代码

# (伪代码逻辑)
except Exception as e:
    print(f"⚠️ SQL 运行失败，正在尝试自动修复... 错误: {e}")
    repair_prompt = f"上一次生成的 SQL: {sql_query}\n报错信息: {e}\n请根据报错修正 SQL。"
    
    # 进行第二轮对话
    response = client.chat.completions.create(
        model="deepseek-chat", # 修复用 V3 即可，速度快
        messages=[... history ..., {"role": "user", "content": repair_prompt}]
    )
    # 获取修正后的 new_sql 并再次执行...

这种机制能将 Text-to-SQL 的成功率从 80% 提升到 95% 以上。

五、安全警示 (Enterprise Safety)

将 AI 接入数据库是极其敏感的操作。在生产环境落地时，必须遵守以下红线：

最小权限原则 (Least Privilege)：
永远不要使用 root 或 admin 账号连接数据库。必须创建一个专用的 read_only_user，只授予 SELECT 权限。
敏感数据脱敏：
在将 Schema 传给 DeepSeek 前，如果表名或字段名包含敏感信息（如 user_password, id_card），建议在 Prompt 中过滤掉，或者建立视图 (View) 供 AI 查询。
Human-in-the-loop：
对于关键操作，建议先由 AI 生成 SQL，展示给人员审核，点击"确认"后再执行。

DeepSeek-R1 实战：数据分析