华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token

在大模型的多种应用形态中,执行专业功能的行业 Agent,无疑是提升生产效率、实现价值创造的利器。

然而,千行百业包含着大量的私域知识、专家经验和工具使用逻辑,使得智能体的行业应用构建存在各类门槛。

为了提升开发效率,业界提出了诸如 Skills、OpenClaw 等优秀的工程框架,使得专业 Agent 的开发门槛日益降低,也让针对 Agent 应用的多维度算法优化需求愈发凸显。

在此背景,华为诺亚方舟实验室 近期在官网更新了面向行业应用的算法包 MindScale,这一项目融合了实验室的算法创新基因与华为行业智能化业务实践经验。

其系统性梳理了 Agent 时代将 "大模型" 转化为 "生产力" 的算法技术挑战,并给出了对应的技术论文昇腾代码实现,为行业用户与开发者提供了直接的 "上手指南"。

制约行业 Agent 发展的四大核心挑战

在 MindScale 项目中,研究人员识别了在行业普及 Agent 应用的四大挑战:

  • 工作流手工维护:依赖专家将业务规则 "翻译" 为 Agent 工作流;

  • 历史知识复用难:历史推理路径与反馈无法有效使 Agent 系统自演进;

  • 训推效率瓶颈:大量模型部署与迭代需求 + 思考路径变长,成本压力陡升;

  • 复杂推理测评:多步、多工具交织推理,单精度指标无法准确反映模型效果。

实现工作流自进化与提示词自动化闭环

为了应对这些挑战,诺亚的研究人员与多所合作单位一道,给出了自己的解决方案。

例如,面向行业 Agent 开发中最常见的工作流_(Workflow)_开发场景,算法包中包含了自进化的 Agent 算法 EvoFabric

与手动提取工作流高度依赖专家经验不同,使用 SOP2Workflow 可以快速从自然语言文档与历史工具库,直接生成可执行的 Workflow。

**△**由用户书写的网页功能测试 SOP→自动生成的整个 Workflow

为了实现这样灵活的 Workflow 生成,研究人员采用了基于状态图引擎内核的 Agent 实现,原生支持混编 Agent、工具等多种图节点,支持状态的改写和分组融合处理,实现多智能体、多工具、多记忆形态的深度混编,图引擎还支持 DSL 文件的导入与导出,实现复杂智能流程的快速复制、迁移与部署。

同时,该算法框架还可以实现基于记忆的演进------多轮执行时,记忆模块利用轨迹记忆,以及当时的评估结果形成经验优化上下文,实现 Agent 越用越好。

另一个有趣的功能,是让模型开始自己进行 "prompt 优化"

首先,基于前期已经先行发布的 prompt 在线优化算法 SCOPE,开发者可以实现在每步推理之间进行 prompt 在线优化,通过注入萃取历史路径中的有效信息实现提示词的快速优化,在 HLE 和 GAIA 等 agentic reasoning 的场景里可以取得 20% 以上的精度提升。

此外,研究人员还提出了 "大模型 prompt 优化器"C-MOP,通过创新的样本选取与梯度更新策略,解决了"文本梯度" 的冲突问题,实现了基于正负例反馈的 prompt 自动优化,真正做到了 "反馈 -> 演进" 的 prompt 优化闭环。

**△**C-MOP:融合正误双向样本感知与时序动量梯度的提示词优化器

榨干算力潜能并适配国产硬件生态

除了精度提升,MindScale 也注重面向行业场景模型的训推效率优化,例如:

  • 其中的 TrimR 用一个已预训练、指令微调的轻量验证器在线检测并截断无用中间思路,全程无需微调大模型或验证器;

  • 配套工业级异步在线系统,适配大并发生产场景_。_

在 MATH、AIME、GPQA 等基准与多款 LRM 上,TrimR 在几乎不影响准确率的前提下,将推理时延显著降低,大并发场景最高可达约 70% 提速,实现实际应用场景中的 Test Time Scaling。

**△**TrimR:工业级思维链动态压缩算法框架

此外,为了适配行业场景高并发的推理压力,MindScale 还提供了新的基于 KV Cache 的推理方案。

与通用方案中 KV Cache 只是用来加速解码的 "幕后工具" 不同,研究人员提出 KV-Embeddings,把 KV Cache 视作一种 "免费附赠" 的轻量表示,无需额外计算或存储完整隐状态,可以在链式表示推理_(Chain-of-Embedding)_和快慢思考切换等关键场景中,基于多款主流模型上实现性能持平或反超专用 embedding 模型,同时将生成 token 数最高减少 5.7×。

这些结果表明------KV Cache 不只是加速器,更是一块尚未被充分利用的 "思考缓存",为大模型推理阶段的表示复用打开了新的想象空间。

此外,诺亚方舟实验室与相关合作团队还在任务记忆、Agentic RAG、通用算法发现框架等多个方向上,沉淀了大量经过实战检验的、围绕行业智能优化的创新算法技术架构。

同时,MindScale 还也包含了适配昇腾硬件的代码实现,可以让行业开发的小伙伴们,基于国产算力实现高精度、高效的 Agent 构建。

MindScale 主页(或点击文末 "阅读原文"):
noah-mindscale.github.io/
华为诺亚方舟实验室主页:
www.noahlab.com.hk/#/home

  • 本文系量子位获授权刊载,观点仅为原作者所有。

欢迎在评论区留下你的想法!

--- ---

相关推荐
donecoding1 小时前
Claude Code 远程连接的坑之「以为是 1M 上下文,它却偷偷给我用了 200k」
ai编程
DigitalOcean1 小时前
OpenCode AI编程实践:利用推理路由低成本开发游戏
llm·agent
ytAnck2 小时前
傻傻分不清OpenAI 与 Anthropic 接口协议差异
openai·ai编程
妙码生花2 小时前
从 PHP 到 AI + Golang,程序员自救转型手记(十五):优化细节、网络请求封装
前端·后端·ai编程
阿里云大数据AI技术2 小时前
Agentic Memory Extension 支持对接主流Agent - 适用于 Claude Code、CodeX等
人工智能·agent
小白鼠幻想家2 小时前
Devin:从"取代你的AI程序员"到"AI不会取代人类"——这家CEO的嘴,比AI还快
ai编程
阿里云云原生2 小时前
AgentTeams 和 Claude Tag 都进入群聊模式,是新范式还是新叙事?
云原生·agent
AlbertZein3 小时前
从“看图说话”到“动手干活”:看看国产多模态模型在生产场景下的真实表现
aigc·openai·ai编程
Mintimate3 小时前
WorkBuddy 上手: 让脚本项目 Homebrew CN 变成会排障的 Agent
macos·边缘计算·agent
JavaGuide3 小时前
推荐 3 个 Vibe Coding 中文开源教程,从入门到实战
ai编程·vibecoding