DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL and Agents),围绕大模型提供灵活、可拓展的AI原生数据应用管理与开发能力,可以帮助企业快速构建、部署智能AI数据应用,通过智能数据分析、洞察、决策,实现企业数字化转型与业务增长。
目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单,更方便。
一、DB-GPT的核心特性
1、私域问答&数据处理&RAG(Retrieval-Augmented Generation)
支持内置、多文件格式上传、插件自抓取等方式自定义构建知识库,对海量结构化,非结构化数据做统一向量存储与检索
2、多数据源&GBI(Generative Business Intelligence)
支持自然语言与Excel、数据库、数仓等多种数据源交互,并支持分析报告。
3、多模型管理
海量模型支持,包括开源、API代理等几十种大语言模型。如LLaMA/LLaMA2、Baichuan、ChatGLM、文心、通义、智谱、星火等。
4、自动化微调
围绕大语言模型、Text2SQL数据集、LoRA/QLoRA/Pturning等微调方法构建的自动化微调轻量框架, 让TextSQL微调像流水线一样方便。
5、Data-Driven Multi-Agents&Plugins
支持自定义插件执行任务,原生支持Auto-GPT插件模型,Agents协议采用Agent Protocol标准
6、隐私安全
通过私有化大模型、代理脱敏等多种技术保障数据的隐私安全
二、DB-GPT六大基础应用场景
在探索广场
中,搜索发现各种有趣、好玩、有用的数据应用。除了支持按照关键词搜索应用之外, 还提供了热门推荐、全面应用、我的收藏等。
默认安装之后,会有六大应用场景,如下图:
Chat Excel(Excel对话):可以围绕某个Excel数据文件进行快速分析,允许用户上传数据文件并直接对其进行分析;
Chat Dashboard(仪表盘对话):可以围绕某个数据库,针对某个问题进行多维度分析与可视化展示;
Chat Data(数据对话):可以连接本地各种不同类型关系型数据库,并围绕数据库中的某个库进行跨表问答;
Chat DB(数据库对话):通过对话,进行问询式SQL代码创建;(但是不运行)
Chat Normal(原生对话):与原生大模型进行对话
Chat Knowledge(知识库对话):借助RAG实现私有知识库问答,用户可以自定义传输企业业务说明文档、专家文档或数据字典等信息,并围绕相关问题进行问答,从而辅助用户快速了解企业业务,或辅助进行业务决策等;
在在线对话
提供主要的对话能力,展示历史的对话记录以及当前正在对话的应用。 如下图所示,点击任意智能应用,也会跳转到此界面。
三、DB-GPT高阶应用场景
1、自定义智能体应用
在DB-GPT项目中,可以通过开发智能体编排语言(AWEL)开发数据类应用,在在线对话
里面支持应用的创建和管理。
2、promopt管理
在实际应用开发过程中,在不同的场景、Agent、RAG等模块中,都需要针对性定制Prompt,DB-GPT提供了独立Prompt模块,让Prompt的编辑与调整更灵活。
3、知识库
知识库提供了根据私域知识问答的能力,可以根据知识库构建智能问答系统、阅读助手等多种产品,在DB-GPT中也使用了RAG的技术,对知识检索进行增强。
4、Text2SQL微调
通过DB-GPT-Hub可以进行在线Text2SQL微调功能,持续微调底层大模型的Text2SQL能力,从而不断提高生成SQL的准确率。
四、架构方案
- RAG(Retrieval Augmented Generation),RAG是当下落地实践最多,也是最迫切的领域,DB-GPT目前已经实现了一套基于RAG的框架,用户可以基于DB-GPT的RAG能力构建知识类应用。
- GBI:生成式BI是DB-GPT项目的核心能力之一,为构建企业报表分析、业务洞察提供基础的数智化技术保障。
- 微调框架: 模型微调是任何一个企业在垂直、细分领域落地不可或缺的能力,DB-GPT提供了完整的微调框架,实现与DB-GPT项目的无缝打通,在最近的微调中,基于spider的准确率已经做到了82.5%
- 数据驱动的Multi-Agents框架: DB-GPT提供了数据驱动的自进化Multi-Agents框架,目标是可以持续基于数据做决策与执行。
- 数据工厂: 数据工厂主要是在大模型时代,做可信知识、数据的清洗加工。
- 数据源: 对接各类数据源,实现生产业务数据无缝对接到DB-GPT核心能力。
五、本专栏规划
本专栏后续会将DB-GPT计划更新20-30篇文章,把DB-GPT的基础到应用讲清楚,包括:
- DB-GPT的部署(源码部署、镜像部署)
- 六大基础应用场景逐一剖析讲解
- 底层模型的管理和变更
- 知识库管理
- 知识库问答应用搭建
- 智能体编排语言AWEL使用
- AWEL算子剖析
- AWEL应用构建
- prompt管理与优化
- Text2SQL微调
- 多模型管理SMMF
- DB-GPT运维管理
- DB-GPT源码架构讲解
- DB-GPT源码详细剖析
- 企业级综合应用
一直努力向前,大家加油共勉,一起学习。