基于Hermes Agent 的 AI 可视化协同研发流水线—实现机制与实现逻辑

今天继续分享AI软件工程方面的内容。即我一直思考的一个关键问题,就是对于存量项目的需求变更和Bug修改,是否可以让AI完全流水线自动化完成。

最近Hermes Agent很火,大家可能感觉是一个和OpenClaw类似的东西。但是其核心我的理解不是在于可以自己创作可复用的Skills技能。而是其强大的自我学习和进化能力。而这个能力正是在类似存量项目变更中极其需要的一个关键能力,也就是AI大模型帮你做变更改Bug,会随着整个时间的推演越来越聪明。那么我们来研讨这件事情本身是有意义的。

缘起的AI初次对话提示词。

我最近有一个重要的思考。就是让AI大模型在重复理解了我的历史源代码项目后,实现自动化的帮我实现需求变更和Bug的修改。 当然整个流水线我还是希望人接入进行关键阶段点的审计工作。

因此我希望设计一个可视化的类似scrum的敏捷看板,能够展示出这个动态流水线的效果。 这个看板需要有需求,设计,实现,测试四个关键的纵向泳道。

我的核心思想和原生需求描述如下:

首先将原始需求丢入到需求泳道。但是原始需求本身还可能存在和AI大模型多次迭代确认,以形成最终确认后需求。也就是在需求泳道中存在多次需求确认过程,最终需求会变成一个最终确认的状态。我们可以设计最多三轮迭代确认。

对应确认完成后的需求自动流转到设计阶段和设计泳道。AI基于需求进行设计工作。包括设计方案,包括关键算法,包括涉及到的关键接口,数据库表的变更等。对于设计完成的内容,同样需要人工进一步确认。在这个过程中也可能多轮迭代。最终设计进入到已确认状态。

只确认完成的需求才会进入到开发中状态。对于开发中完全是AI编程自动化进行。不需要人工干预。但是在开发我希望能够看到AI本身的开发会分为开发中和单元测试中两个关键小活动点。AI应该自动完成单元测试,只有单元测试通过的需求才会流转到测试泳道。

对于测试泳道即进入到人工测试和确认阶段。注意这里可能测试会不通过,那么整个流水线作业会打回到开发过程进一步开发和迭代。这里也会人工测试和验证通过。那么验证通过的需求点或Bug那么就应该进入到待部署状态。同时AI大模型对本次所有变更内容进行总结。形成一个完整的变更或Bug修复说明总结既要。

可以看到上面整个过程,实际也需要人工介入。实际人工介入的点只有需求确认,设计确认,修改后内容UAT测试三个环节。当然在这个三个环节点本身也可能是多轮迭代完成的。

也就是我希望构建这么一个可视化的面板,面板的启动就是录入原始的需求变更或缺陷。人工介入只有需求确认,设计确认和UAT验证确认。其它工作全部AI自动化完成。通过这个可视化的看板能够实现人和AI的可视化协同。

所以我希望来设计这么一个可视化的和AI协同的看板的前端动态界面原型。不知道我是否说清楚了我的需求?

现在Hermes很火,具备更加强大的自我学习和进化能力,记忆能力。在前面谈到的可视化面板前端的基础上,我后端是否结合Hermes更加容易实现整体构想。如果是,请给出结合 Hermes的整体技术架构图参考图给我。能够很清楚的看到组件间集成,内部架构运行机制,你可以用序号来标注整个调用和集成关系。

基于以上提示词。

在我AI大模型多次交互沟通后,我们得到一篇完整的基于Hermes Agent来实现AI协同研发流水线的完整方案文档。

一、整体设计思想

本系统的核心目标是构建一条"人机协同、AI 主导执行、人工关键节点介入"的软件研发自动化流水线。区别于传统 Scrum 工具(Jira、Azure DevOps 等)仅做任务跟踪,本系统将 AI 执行引擎深度嵌入流水线的每一个阶段,使 AI 不仅仅是辅助建议者,而是真正的执行主体。

选择 Hermes Agent 作为后端核心引擎,原因在于它从架构层面解决了 AI 协作中最根本的两个问题:一是无状态问题------传统 LLM 每次对话从零开始,无法积累对项目的深度理解;二是能力固化问题------传统 AI 工具的能力边界在部署时就已确定,无法随项目演进自动成长。Hermes 的持久记忆系统和自动技能进化机制,使 AI 对历史代码库的理解可以跨会话累积,越用越深,最终真正达到"熟悉项目"的状态,这正是实现自动化需求变更和 Bug 修复的前提条件。

整个系统分为五个层次:前端可视化看板层、Hermes Agent 核心引擎层、持久记忆与知识层、MCP 工具链集成层,以及研发流水线的四个执行阶段。各层之间通过定义清晰的接口和事件协议串联,形成完整的闭环。


二、前端可视化看板层的实现逻辑

前端是整个系统的人机交互入口,采用 React 构建,呈现为四列泳道的 Scrum 看板形态,分别对应需求、设计、开发、测试四个阶段。每个需求点或 Bug 对应一张卡片,卡片随流水线进展在泳道间自动流转,同一时刻一张卡片只存在于一个泳道。

卡片本身是信息密度经过设计的展示单元,显示工作项编号、类型(需求变更或缺陷)、当前阶段的子步骤完成状态以及进度条。双击卡片会弹出多 Tab 对话面板,这是人机协同的核心交互界面。Tab 页的数量和可编辑性随流水线阶段动态变化:在需求阶段,只有"需求对话"Tab 且处于可输入状态;进入设计阶段后,新增"设计对话"Tab 并激活,而需求 Tab 自动变为只读归档;到开发阶段,新增"开发日志"Tab 展示 AI 自动执行的实时日志流,需求和设计 Tab 均已锁定;测试阶段则新增"UAT 记录"Tab 供人工填写测试结论。这种"历史只读、当前可写"的 Tab 设计,保证了每张卡片对话历史的完整可追溯性,同时防止人工误改已归档的阶段内容。

前端与后端之间通过 API Gateway 通信,使用 WebSocket 维持长连接以支持实时状态推送。当 Hermes Agent 在后端执行任务时,执行日志、阶段流转事件、人工介入点通知都通过 WebSocket 实时推送到前端,驱动看板状态更新,使用户无需刷新即可看到流水线的动态变化。

大家参考下Codex+GPT5.4做的前端交互原型参考。


三、Hermes Agent 核心引擎层的实现逻辑

整体架构图和架构运行机制参考如下:

Hermes Agent 的核心是一个"接收→检索→推理→行动→学习"的五步闭环 AIAgent 主循环,这个循环在本系统中被扩展为一个流水线编排器(Pipeline Orchestrator),负责驱动四个研发阶段的状态机流转。

Pipeline Orchestrator 维护每张卡片的状态机,状态包括:需求录入中、需求确认等待、设计生成中、设计确认等待、开发执行中、单元测试中、UAT 等待、已完成、打回开发等。状态机的转换有两种触发方式:AI 自动触发(如单元测试通过后自动流转到测试阶段)和人工触发(如人工点击确认按钮后从需求阶段流转到设计阶段)。对于人工介入节点,Orchestrator 会进入等待状态,同时通过 Notification MCP 向相关人员推送通知,并在看板上显示"待人工确认"的醒目标识。

Human-in-loop 等待器 是一个异步等待机制。当流水线到达人工介入点时,Orchestrator 将当前状态序列化存入 SQLite,释放执行资源,转为轻量级的轮询监听。一旦前端确认按钮被点击,API Gateway 发出确认事件,等待器接收后重新激活对应任务的 Orchestrator,从中断点继续执行。这种设计使系统可以同时管理多张卡片处于不同的等待状态,互不阻塞。

LLM Router 负责将 AI 推理请求路由到合适的模型提供者。本系统的一个重要设计是模型无关性------需求分析可以使用擅长自然语言理解的模型,代码生成可以使用擅长编程的模型,单元测试生成和验证可以使用成本较低的快速模型。LLM Router 根据当前任务类型自动选择,也支持通过配置手动指定,切换模型无需修改任何代码。

Atropos 强化学习引擎 在每次任务完成后介入,分析本次执行的工具调用轨迹,判断哪些步骤是成功路径,将其强化;哪些步骤产生了错误或低效,对对应的决策模式进行修正。随着项目的持续运行,Hermes 对当前项目技术栈的代码生成质量、测试策略选择等能力会持续提升,形成真正意义上的项目专属 AI 能力积累。


四、持久记忆与知识层的实现逻辑

这一层是本系统区别于普通 AI 工具的核心竞争力所在,解决的是"AI 如何真正理解一个长期演进的项目"的问题。

会话持久记忆基于 SQLite 加 FTS5 全文检索引擎构建。系统中所有的对话内容------无论是需求确认的多轮对话、设计评审的讨论,还是 UAT 测试的意见记录------都会被持久化存储。Hermes 不是简单地存储原始对话文本,而是使用 LLM 对每次对话进行摘要提炼,将关键信息、决策结论、约束条件提取出来单独存储,同时保留原始对话作为溯源依据。检索时通过 FTS5 全文检索快速定位相关历史,再由 LLM 做二次语义筛选,确保召回质量。实测在超过一万条记忆条目的情况下,单次检索延迟约 10 毫秒,满足实时性要求。

项目源码知识库是让 AI 真正"熟悉项目"的关键组件。系统在初始化阶段会对目标代码仓库进行全量解析,通过 AST(抽象语法树)分析提取模块依赖关系、关键接口定义、数据模型结构,并将这些结构化信息向量化后存入知识库。每次代码变更提交后,知识库进行增量更新,记录变更前后的 diff 及变更原因(关联到对应需求卡片)。这样,当新需求到来时,Hermes 可以准确检索出受影响的模块、相关的历史接口设计、类似的历史实现案例,为代码生成提供高质量的上下文。

**技能库(Skills Hub)**是 Hermes 自动进化能力的载体。每当 Hermes 成功完成一次复杂任务(通常是五次以上工具调用的任务),系统会自动分析本次执行过程,将成功的方法论提炼为一份结构化的 Markdown 技能文档,包含适用场景、执行步骤、关键边界条件、常见陷阱等。技能文档会在后续使用中持续被修正------当新的执行经验与已有技能文档产生矛盾或补充时,系统自动 patch 对应文档。目前系统内置超过 118 个技能,覆盖需求分析、架构设计、代码生成、测试用例生成等场景,随项目运行还会不断自动增加针对当前项目技术栈的专项技能。

变更历史归档为每张卡片独立维护全生命周期的对话和决策历史。这份历史按阶段分层存储,对应前端多 Tab 弹窗的数据来源。已归档阶段的历史在数据库层面设置为只读标记,前端 API 在对应 Tab 的数据接口上不开放写入权限,从存储到接口双重保障历史数据的不可篡改性。

Honcho 用户建模模块持续建立对团队成员工作偏好的深度模型,包括不同成员对需求描述的习惯用语、对设计方案的偏好风格、对代码规范的具体要求等。这使得 Hermes 与不同成员协作时能主动适配其风格,减少沟通摩擦,提升多轮迭代的效率。


五、MCP 工具链集成层的实现逻辑

MCP(Model Context Protocol)是 Hermes Agent 与外部系统集成的标准协议,使 AI 能够像调用函数一样操作外部工具,且工具调用结果可以直接进入 AI 的推理上下文。

Git / GitHub MCP 是开发阶段的核心工具。当 AI 完成代码生成后,通过该工具直接操作 Git 仓库:创建功能分支、提交代码、推送远程、创建 Pull Request,并自动在 PR 描述中填充本次变更关联的需求编号、设计决策摘要、单元测试覆盖情况。代码审查意见如果需要修改,可以通过 PR 评论触发 Hermes 重新进入开发循环。

DB Schema MCP 在设计阶段发挥关键作用。Hermes 生成设计方案时,会通过该工具分析现有数据库表结构,评估新需求对现有表的影响范围,自动生成数据库迁移脚本,并检测可能的数据兼容性风险。设计文档中的数据库变更部分因此从抽象描述变为可直接执行的具体 SQL。

CI/CD MCP 连接 Jenkins 或 GitHub Actions 等流水线工具。单元测试通过后,Hermes 通过该工具触发 CI 构建,获取构建结果;UAT 验收通过后,触发生产部署流水线,并将部署状态实时回调到看板,更新卡片状态为"已部署"。

Notification MCP 负责人工介入节点的触达。每当流水线到达需求确认、设计确认、UAT 验收三个人工介入点时,系统通过该工具向指定成员的 Telegram 或 Slack 发送结构化通知,包含工作项摘要、当前需要确认的具体内容、直接跳转到看板对应卡片的链接。人工无需打开看板也可通过消息平台直接回复,Gateway 接收回复后转化为确认事件驱动流水线继续。


六、四阶段流水线的具体执行逻辑

需求阶段的起点是人工在看板录入原始需求描述或 Bug 现象。Hermes 接收后,首先从项目源码知识库中检索与该需求相关的历史模块和接口,结合 Honcho 用户模型理解录入者的表达习惯,生成一系列澄清问题,在 Tab 对话框中与人工展开多轮对话。每轮对话后,Hermes 将最新理解整理为结构化需求文档(包含功能描述、约束条件、验收标准、影响范围),展示给人工确认。支持最多三轮迭代,每轮的对话历史和需求文档版本均被记录。人工点击确认按钮后,最终版需求文档写入记忆库,卡片自动流转到设计泳道。Skill Engine 同时将本次需求分析过程中有价值的方法记录为技能文档,供未来类似需求复用。

设计阶段完全由 AI 主导执行。Hermes 从记忆库读取已确认的需求文档,再召回源码知识库中相关模块的架构信息,综合生成完整的设计方案。设计方案覆盖四个维度:整体方案描述、关键算法设计、涉及接口的变更清单(包含入参出参定义)、数据库表变更(通过 DB Schema MCP 生成迁移脚本)。生成完成后在 Tab 弹窗的设计 Tab 中呈现,等待人工审阅。人工可以在对话框中直接提出修改意见,Hermes 根据意见修订设计方案,支持多轮迭代直到人工满意。设计确认后,完整设计文档归档入记忆库,需求 Tab 转为只读,设计 Tab 也随之锁定,卡片流转到开发泳道。

开发阶段是纯 AI 自动化执行,无需人工干预。Hermes 同时加载需求文档和设计文档(均为只读上下文),结合源码知识库中现有代码风格和规范,通过 LLM Router 调用代码生成能力产出实现代码。代码生成完成后,进入 Docker 沙箱环境执行单元测试,Atropos 引擎记录完整的执行轨迹。开发日志(包括代码生成过程、测试执行输出、覆盖率报告)通过 WebSocket 实时推送到前端开发日志 Tab,供人工随时观察。单元测试全部通过后,通过 Git MCP 提交代码并创建 PR,卡片自动流转到测试泳道;如果测试失败,Hermes 分析失败原因,自动修改代码重试,最多重试三次,三次后仍失败则在看板标记异常并通知人工介入排查。

测试阶段回归到人工主导。卡片进入测试泳道后,系统通过 Notification MCP 通知测试人员,测试人员双击卡片打开 UAT Tab 进行测试记录。测试通过时,点击"验收通过"按钮触发两件事:一是 Hermes 自动生成完整的变更说明总结,内容覆盖本次需求的原始描述、设计决策要点、代码变更范围、数据库变更内容、单元测试覆盖情况、UAT 测试结论,形成一份完整的变更纪要归档;二是通过 CI/CD MCP 触发部署流水线,卡片进入"待部署"状态。测试不通过时,测试人员在 UAT Tab 记录具体问题,点击"打回开发"按钮,Hermes 读取测试意见,重新激活开发阶段的 Agent 循环,开始新一轮的代码修复,形成开发→测试的迭代闭环。


七、核心价值与关键优势

本架构的核心价值在于三点。第一,人工介入点极度精简,仅保留需求确认、设计确认、UAT 验收三个节点,其余所有工作由 AI 全自动完成,真正释放研发团队的精力专注于高价值决策。第二,AI 能力随项目持续积累,通过持久记忆、源码知识库、技能自动进化三重机制,Hermes 对项目的理解深度随时间指数级增长,形成真正的"项目专属 AI 队员"。第三,全过程可追溯,每张卡片的多 Tab 归档机制保证了从原始需求到最终部署的每个决策、每轮对话、每次变更都有完整记录,满足企业级审计和合规要求。

这套架构将 Hermes Agent 的自我学习能力、持久记忆机制和 MCP 生态与定制化的研发流水线深度融合,既保留了人工在关键节点的控制权,又最大化释放了 AI 在确定性执行环节的自动化潜力,是当前阶段实现"人机协同研发"构想的一条切实可行的技术路径。

相关推荐
实证小助手21 小时前
世界各国经济政策不确定指数(1997-2024年)月度数据
大数据·人工智能
Wcowin21 小时前
Hermes Agent:自进化的 AI Agent
人工智能
努力学习_小白21 小时前
ResNet-50——pytorch版
人工智能·pytorch·python
安思派Anspire1 天前
内容创作的核心变量:从选题判断到系统化生产的再思考 AI 选题及预测工具 百万加 MPlus
人工智能·aigc
探物 AI1 天前
虾破苍穹(二)·《openclaw功法全书》 [特殊字符]
人工智能·ai编程
IT_陈寒1 天前
Redis的内存溢出坑把我整懵了,分享这个血泪教训
前端·人工智能·后端
高洁011 天前
大模型微调进阶:多任务微调实战
人工智能·python·深度学习·机器学习·transformer
Elastic 中国社区官方博客1 天前
使用 Jina 远程 MCP 服务器的 Agentic 工作流
大数据·运维·人工智能·elasticsearch·搜索引擎·运维开发·jina
机器之心1 天前
太反差了!那边Claude强制「刷脸」认证,这边国内Coding Plan被外国人疯抢
人工智能·openai
机器之心1 天前
当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建
人工智能·openai