Vanna数据平权:非技术人员的数据库自由

上一篇文章我们简单介绍了Vanna.AI - Personalized AI SQL Agent,一篇基于RAG的自然语言生成SQL的工具。 今天我们来一起深入学习它。假如你和我一样在准备24年的春招,在前端全栈外,再准备一些AIGC的内容是非常有必要的。24年是AI红利年,AIGC+各种岗位大厂机会会多些,同意的同学请点赞。

前言

Vanna为Text2SQL这一AIGC需求,提供了非常棒的开发套件,我感觉要离不开它了。如果您还没有注册Vanna, 请先看Vanna.AI - Personalized AI SQL Agent。现在让我们从app.vana.ai页面开始,利用Vanna开发AIGC SQL应用。

chinook

Vanna 默认使用的LLM是chinook,点击会进入到默认的chat robot页面。

我们先来分析下,左侧是一些示例问题;右上角的Current Model菜单可以切换其它LLM;默认选中的是Chat聊天页,旁边的Training可以加载我们要训练的数据,这非常方便。Users是针对用户的管理,Connections是针对连接的管理

架构图

上面是在Vanna github主页上显示的架构图。Vanna 支持Any SQL Database(多种数据库),也支持Any Vector Storage(向量数据库)。也支持多种大语言模型,甚至对接多种AIGC前端(Flask/Streamlit/Slack...)。从这张图,我们可以看出Vanna是多么的强大!

工作方式

Vanna生效分为两步,先是用户提交数据库训练(RAG应用中的上传文件),第二步是问答。

  • 数据训练

我们交给Vanna RAG应用的数据库文件可以是DDL、文档、也可以给些参考的SQL查询(few shots),这些数据会被Embedding(LLM需要),然后存储在向量数据库中。

  • 问答

用户提出的问题首先也会被Embedding,找到相关的DDL/文档/或参考的SQL(相似计算),构建提示词,发送给LLM, 最后由LLM生成SQL,返回用户。

训练

  • 安装

    pip install vanna

  • 给Vanna 自定义大模型或向量数据库

python 复制代码
# LLM 使用的是 OpenAI ,向量数据库是ChromaDB

from vanna.openai.openai_chat import OpenAI_Chat
from vanna.chromadb.chromadb_vector import ChromaDB_VectorStore

class MyVanna(ChromaDB_VectorStore, OpenAI_Chat):
    def __init__(self, config=None):
        ChromaDB_VectorStore.__init__(self, config=config)
        OpenAI_Chat.__init__(self, config=config)

vn = MyVanna(config={'api_key': 'sk-...', 'model': 'gpt-4-...'})
  • 训练
  1. 根据DDL 声明进行训练
ini 复制代码
vn.train(ddl="""
    CREATE TABLE IF NOT EXISTS my-table (
        id INT PRIMARY KEY,
        name VARCHAR(100),
        age INT
    )
""")

DDL声明包含了表名、字段名、数据类型和数据表间的关系。

  1. 根据文档进行训练

我们也可以用文档描述数据

ini 复制代码
vn.train(documentation="Our business defines XYZ as ...")
  1. 根据SQL训练
ini 复制代码
vn.train(sql="SELECT name, age FROM my-table WHERE name = 'John Doe'")

当我们加入sql 进行训练,这些sql即可以做为few shots,又可以提供DDL上下文,提供SQL信息。

  • 提问
arduino 复制代码
vn.ask("What are the top 10 customers by sales?")

Vanna 返回SQL:

vbnet 复制代码
SELECT c.c_name as customer_name,
        sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales
FROM   snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders o
        ON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer c
        ON o.o_custkey = c.c_custkey
GROUP BY customer_name
ORDER BY total_sales desc limit 10;

如果数据库连接了,我们将得到以下数据:

Vanna 连数据表都帮我们考虑好了。

总结

  • 了解Vanna的架构和工作原理
相关推荐
青瓷程序设计10 分钟前
【交通标志识别系统】python+深度学习+算法模型+Resnet算法+人工智能+2026计算机毕设项目
人工智能·python·深度学习
Mr.huang11 分钟前
RNN系列模型演进及其解决的问题
人工智能·rnn·lstm
智驱力人工智能16 分钟前
货车走快车道检测 高速公路安全治理的工程实践与价值闭环 高速公路货车占用小客车道抓拍系统 城市快速路货车违规占道AI识别
人工智能·opencv·算法·安全·yolo·目标检测·边缘计算
老百姓懂点AI20 分钟前
[RAG架构] 拒绝向量检索幻觉:智能体来了(西南总部)AI agent指挥官的GraphRAG实战与AI调度官的混合索引策略
人工智能·架构
ws20190721 分钟前
技术迭代与湾区赋能:AUTO TECH China 2026广州汽车零部件展的四大核心价值
人工智能·科技·汽车
源于花海27 分钟前
迁移学习简明手册——迁移学习相关资源汇总
人工智能·机器学习·迁移学习
aihuangwu30 分钟前
deepseek图表怎么导出
人工智能·ai·deepseek·ds随心转
Gofarlic_oms141 分钟前
通过Kisssoft API接口实现许可证管理自动化集成
大数据·运维·人工智能·分布式·架构·自动化
电商API&Tina42 分钟前
电商数据采集 API 接口 全维度解析(技术 + 商业 + 合规)
java·大数据·开发语言·数据库·人工智能·json
退休钓鱼选手1 小时前
[CommonAPI + vsomeip]通信 客户端 5
c++·人工智能·自动驾驶