构建可用于生产环境的检索增强生成(RAG)系统往往复杂且耗时,通常需要数月的工程投入。开发者和企业在接入多样化数据源、为语义搜索结构化内容,以及维持答案的准确性与可验证性方面,普遍面临挑战。
为解决这一问题,DigitalOcean Gradient™ AI Knowledge Bases 迎来了重要增强,并已进入公开预览(public preview)阶段。其代码优先(code-first)能力允许开发者完全通过代码来创建、管理和查询知识库,对数据摄取、分块(chunking)、向量嵌入(embedding)和检索流程拥有完全控制权,而无需关注底层基础设施的复杂性。
首先简单介绍一下 DigitalOcean Gradient™ AI 平台。
DigitalOcean Gradient™ AI 平台让你能够构建完全托管的 AI Agent ,并集成知识库以支持检索增强生成(RAG)、多 Agent 路由 、安全护栏(guardrails)等能力;同时,你也可以通过无服务器推理(serverless inference),直接向主流基础模型发起请求。在平台上,DigitalOcean 提供了包括 GPU Droplet 云服务器、GenAI、无服务推理、AI 智能体开发套件、AI 智能体评估与分析功能等一系列产品与服务。而这次推出的 AI Knowledge Bases (AI 知识库)正是 Gradient™ AI 平台中面向 RAG 场景的核心基础能力,用于将企业的私有数据系统化地接入 AI Agent,使其能够在可控、可验证的前提下,基于真实业务数据进行检索、引用和回答,从而真正将生成式 AI 从原型阶段推向可落地的生产应用。
灵活、可用于生产环境的工具包
许多现有方案可以帮助开发者快速搭建一个基础知识库,但在规模扩展、深度定制或融入生产级工作流时往往力不从心。此次改进正是针对这些痛点而来,提供了一套以开发者为中心、代码驱动的工具包,覆盖知识库的完整生命周期。
开发者可以从文件、Dropbox、网页爬虫等多种来源摄取数据,自主控制分块和嵌入策略,并通过自然语言查询获取带有引用来源的答案,同时支持元数据过滤。借助文档完善的 API 和 SDK,这些能力都可以无缝集成,整个流程完全通过代码完成。
公开预览版新增内容
本次公开预览重点提供了构建和管理知识库所需的核心能力:
- 直接 API 访问:无需依赖 Agent,即可直接查询知识库,便于集成到应用或 RAG 流水线中,拥有更高的控制自由度
- 可定制的数据摄取:支持从文件、网页爬虫、Dropbox 数据集等来源导入内容,支持结构化数据、站点地图抓取,并可精准解析复杂 PDF
- 灵活的分块与嵌入策略:根据内容类型选择合适的分块方式,并可使用高性能嵌入模型(包括多语言嵌入模型);同时提供智能默认配置,便于快速上手
- 高级检索与引用机制:支持精确到页面级别的引用、元数据过滤以及混合搜索
- 开发者优先的工具体验:完全基于代码的 SDK 与 API,使创建与集成过程更加顺畅
立即体验升级后的 Knowledge Base
这些改进现已在公开预览 中提供。开发者可以通过完全代码化的方式 管理知识库,更快地构建更智能的 AI 应用。你可以从查阅 API 文档开始,亲自体验将自有数据快速转化为具备上下文、可追溯的智能答案的过程。
如需体验 Knowledge Base 的新能力,请前往 DigitalOcean Cloud Console 中的 Feature Preview 页面启用公开预览。完成启用后,访问权限通常会在 10--15 分钟内生效。
如果你需要了解更详细的使用步骤,可以访问 DigitalOcean 英文官网文档中心查看详细的文档:docs.digitalocean.com/products/gr...
关于 DigitalOcean Gradient AI 平台更多的产品服务,例如 GPU 云服务器等,可直接咨询 DigitalOcean 中国区独家战略合作伙伴卓普云 AI Droplet(aidroplet.com)。