专为软件开发者打造

蚂蚁Codefuse团队投稿

量子位 | 公众号 QbitAI

从设计、编码到测试、部署，甚至是运维......软件开发的整个流程，可以通通交给AI了！

一款覆盖软件开发全生命周期的端到端AI智能助手，让分散的软件开发操作变得集成化、智能化。

这款AI助手专门针对开发领域设计，避免了通用大模型不可靠、信息不及时、领域任务不完善等问题。

这个AI助手名为DevOps-ChatBot，由蚂蚁Codefuse项目组研发，安装过程简单快速，还可通过docker完成一键部署。

DevOps-ChatBot具体都有哪些功能，表现又是如何，请看作者投稿。

解决通用大模型缺陷

随着ChatGPT等通用大模型以及各类垂直领域大模型的出现，各个领域的产品交互模式、用户信息获取模式都在逐步发生改变。

但DevOps对于事实的准确性、信息的及时性、问题的复杂性、数据的安全性要求都比较高，通用大模型生成内容不可靠、信息不及时、领域任务不完善的问题始终存在。

于是，Codefuse团队发起并开源DevOps-ChatBot端到端AI智能助手，专为软件开发的全生命周期而设计：

通过DevOps垂类知识库 + 知识图谱增强 + SandBox执行环境等技术来保障生成内容的准确性、及时性并让用户交互修改代码编译执行，确保答案的可靠性；
通过静态分析技术 + RAG检索增强生成等技术来让大模型感知上下文，实现代码库级别的组件理解、仓库项目级的代码文件修改、生成，不单单只是函数片段级的代码补齐；
通过完善链路级的Multi-Agent调度设计、协同知识库、代码库、工具库、沙盒环境，来让大模型可以实现DevOps领域复杂多步骤的任务；
通过DevOps领域专属的领域模型和评测数据构建支持私有化部署来保障数据的安全性，以及特定任务的高可用性。

Codefuse团队期望通过本项目逐步改变原有的开发运维习惯，从各处资料查询、独立分散平台操作的传统开发运维模式转变到大模型问答的智能化开发运维模式，让"天下没有难做的Coder"。

五大核心模块

DevOps-ChatBot项目整体架构简图如下：

具体来说，它包含了以下9个功能模块：

Multi Source Web Crawl：网络爬虫，提供对指定url爬取相关信息的能力
️ Data Process：数据处理模块，提供文档加载器、数据清洗、文本切分的功能，处理和整合多源格式的数据文档
️ Text Embedding Index：文档分析核心，通过文档上传即可实现文档检索
Vector Database & Graph Database：向量数据库和图数据库，用于数据管理
Multi-Agent Schedule Core：多智能体调度核心，通过简易配置即可构建所需交互智能体
Prompt Control：Prompt控制与管理模块，定义Agent的上下文管理
SandBox：沙盒模块，提供代码编译执行和动作执行的环境
LLM：智能体大脑，可支持多种开源模型和LLM接口范围
️ API Management：API管理组件，快速兼容相关开源组件和运维平台

除了上述功能模块的组装协同，DevOps-ChatBot项目还具有以下核心差异技术和功能点：

智能调度核心：体系链路完善的调度核心、多模式一键配置
代码整库分析：仓库级代码理解、项目文件级代码编写生成
文档分析增强：文档知识库结合知识图谱的检索、推理增强
垂类专属知识：DevOps专属知识库、垂类知识库自助一键构建
垂类模型兼容：DevOps领域小模型、DevOps周边平台兼容

智能调度核心

在处理复杂问题时，我们可以通过ReAct过程来选择、调用和执行工具反馈，实现多轮工具使用和多步骤执行。

但对于更复杂的场景，例如复杂代码的开发，单一LLM Agent难以胜任。

研究团队希望构建一个可扩展、易于使用的多智能体（Multi-Agent）框架，通过简易的配置即可辅助完成日常办公、数据分析、开发运维等各种通用任务。

本项目的多智能体框架汲取兼容了多个框架的优秀设计，比如metaGPT中的消息池（message pool）、autogen中的代理选择器（agent selector）等。

DevOps-ChatBot中多智能体框架的核心要素包括了以下6个方面：

智能体信息交互（Agent Communication）：Agent之间有效的信息交流对于上下文管理以及问答效率提升至关重要。包含两种通信模式：简洁直观易于理解的链式对话、借鉴metaGPT的消息池框架；
标准操作过程（Standard Operation Process，SOP）：定义智能体的输入和输出范围和定义SOP标识，如Tool、Planning、Coding、Answering、finished等，对LLM的生成结果进行标准化解析和处理；
计划与执行器（Plan and Executor）：增加大模型的工具使用、智能体调度、代码的生成；
长-短期记忆管理（Long-short term memory Management）：为了模拟人类团队协作过程，增加一个专门负责内容总结（类似于会议助理）的Agent，对长期记忆总结并提取更有效的信息进行传递；
人-智能体交互（Human-agent interaction）：面对复杂场景，由人类介入智能体交互过程并提供反馈，使大模型能准确理解人类的意图，从而更有效地完成任务；
Prompt控制与管理（Prompt Control and Management）：负责协调和管理智能体间的Prompt交互，提升系统的复杂性控制和交互效率。输入和输出采用Markdown结构化设计，实现清晰规范的结果展示，方便阅读和解析。

实际操作过程中，用户可通过组合多个智能体来实现一个完整且复杂的项目上线场景（Dev Phase），如需求链（CEO）、产品论证链（CPO、CFO、CTO）、工程组链（选择者、开发者1~N）、部署链（开发者、部署者）等。

代码整库分析

现阶段大模型主要用于代码生成、修复以及组件理解的任务，面临以下挑战：

代码训练数据存在滞后性，频繁更新的开源/私有仓库存在数据信息的不及时。
大模型无法感知代码上下文和代码库依赖结构。

研究团队归纳了开发中遇到的主要问题，从下图中可以看到在开发的过程中，现有代码库、依赖包的理解，代码检索、元信息查询等占用的时间更长：

针对如上问题，团队通过程序分析获取代码的逻辑结构并存入知识图谱，然后通过RAG迭代查询增强获取必要的上下文信息，又结合多智能体角色扮演，实现了大模型和代码库的有机结合。

这一部分的整体框架如下：

代码结构分析：针对代码原文进行清洗和去重来保留住有价值的代码部分。然后通过静态分析的手段，从代码库中挖掘到代码之间的依赖图，同时借助于大模型的理解能力来针对代码进行解读，在生成的结构化信息图谱中作为重要的补充。
代码检索生成：提供三种不同的检索模式。Cypher检索生成主要面向用户对于代码库结构的理解（比如查询类的数量等需求），图谱检索主要面向用户的问题含有具体的类和方法名的时候来检索代码。

同时，团队也在探索通过多智能体的模式，迭代搜索代码仓库获取上下文信息，同时由其他智能体来负责阶段性提炼总结信息以及结果生成等其他任务。

文档分析增强

大模型在涉及到专业领域知识问答（比如医疗、通讯）、私有知识问答（私域数据），容易出现幻觉导致生成的答案不可信。

最直观的解决方案是将特定/私有领域的数据进行加训来增强模型知识，但训练大模型的开销巨大。

于是研究团队选择知识库外挂的手段和检索增强生成的方式，将与问题相关的数据从知识库中检索出来，作为额外知识输入到大模型中，保障结果的可靠性&实时性，同时避免训练开销。

如何更精准的搜索检索，是本模块核心要解决的问题，为此研究团队提出了这样的架构：

整个DocSearch含三种检索链路，用户可自行选择检索链路，也可以三个都选择以获取不同的结果。

传统的文档向量数据库查询：文档向量数据库是当前最主流的知识库构建方法。使用Text Embedding 模型对文档进行向量化并在向量数据库中存储，结合上下文学习的成果，本项目可选择不同的检索策略抽取知识库中相应知识。
知识图谱查询：本项目采用Nebula图数据库对知识图谱进行存储和管理，支持导入现有知识图谱进行知识检索；也支持通过大模型自动抽取实体和关系，挖掘出数据中多种复杂关系。
知识图谱推理+向量数据查询：本项目也提供两者的融合搜索。先对每篇文档提取标签，同时结合用户提问建设图谱中的相关标签。最后，基于标签集合在文档向量数据库中检索出与原问题相关的文档。

知识库构建与DevOps知识库

如前文介绍，通过知识库外挂和增强检索生成的手段可以很好的解决专有/私域知识问答的问题，接下来的核心问题是如何更好的构建知识库。

构建知识库时常常会面对以下问题：