华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token

在大模型的多种应用形态中,执行专业功能的行业 Agent,无疑是提升生产效率、实现价值创造的利器。

然而,千行百业包含着大量的私域知识、专家经验和工具使用逻辑,使得智能体的行业应用构建存在各类门槛。

为了提升开发效率,业界提出了诸如 Skills、OpenClaw 等优秀的工程框架,使得专业 Agent 的开发门槛日益降低,也让针对 Agent 应用的多维度算法优化需求愈发凸显。

在此背景,华为诺亚方舟实验室 近期在官网更新了面向行业应用的算法包 MindScale,这一项目融合了实验室的算法创新基因与华为行业智能化业务实践经验。

其系统性梳理了 Agent 时代将 "大模型" 转化为 "生产力" 的算法技术挑战,并给出了对应的技术论文昇腾代码实现,为行业用户与开发者提供了直接的 "上手指南"。

制约行业 Agent 发展的四大核心挑战

在 MindScale 项目中,研究人员识别了在行业普及 Agent 应用的四大挑战:

  • 工作流手工维护:依赖专家将业务规则 "翻译" 为 Agent 工作流;

  • 历史知识复用难:历史推理路径与反馈无法有效使 Agent 系统自演进;

  • 训推效率瓶颈:大量模型部署与迭代需求 + 思考路径变长,成本压力陡升;

  • 复杂推理测评:多步、多工具交织推理,单精度指标无法准确反映模型效果。

实现工作流自进化与提示词自动化闭环

为了应对这些挑战,诺亚的研究人员与多所合作单位一道,给出了自己的解决方案。

例如,面向行业 Agent 开发中最常见的工作流_(Workflow)_开发场景,算法包中包含了自进化的 Agent 算法 EvoFabric

与手动提取工作流高度依赖专家经验不同,使用 SOP2Workflow 可以快速从自然语言文档与历史工具库,直接生成可执行的 Workflow。

**△**由用户书写的网页功能测试 SOP→自动生成的整个 Workflow

为了实现这样灵活的 Workflow 生成,研究人员采用了基于状态图引擎内核的 Agent 实现,原生支持混编 Agent、工具等多种图节点,支持状态的改写和分组融合处理,实现多智能体、多工具、多记忆形态的深度混编,图引擎还支持 DSL 文件的导入与导出,实现复杂智能流程的快速复制、迁移与部署。

同时,该算法框架还可以实现基于记忆的演进------多轮执行时,记忆模块利用轨迹记忆,以及当时的评估结果形成经验优化上下文,实现 Agent 越用越好。

另一个有趣的功能,是让模型开始自己进行 "prompt 优化"

首先,基于前期已经先行发布的 prompt 在线优化算法 SCOPE,开发者可以实现在每步推理之间进行 prompt 在线优化,通过注入萃取历史路径中的有效信息实现提示词的快速优化,在 HLE 和 GAIA 等 agentic reasoning 的场景里可以取得 20% 以上的精度提升。

此外,研究人员还提出了 "大模型 prompt 优化器"C-MOP,通过创新的样本选取与梯度更新策略,解决了"文本梯度" 的冲突问题,实现了基于正负例反馈的 prompt 自动优化,真正做到了 "反馈 -> 演进" 的 prompt 优化闭环。

**△**C-MOP:融合正误双向样本感知与时序动量梯度的提示词优化器

榨干算力潜能并适配国产硬件生态

除了精度提升,MindScale 也注重面向行业场景模型的训推效率优化,例如:

  • 其中的 TrimR 用一个已预训练、指令微调的轻量验证器在线检测并截断无用中间思路,全程无需微调大模型或验证器;

  • 配套工业级异步在线系统,适配大并发生产场景_。_

在 MATH、AIME、GPQA 等基准与多款 LRM 上,TrimR 在几乎不影响准确率的前提下,将推理时延显著降低,大并发场景最高可达约 70% 提速,实现实际应用场景中的 Test Time Scaling。

**△**TrimR:工业级思维链动态压缩算法框架

此外,为了适配行业场景高并发的推理压力,MindScale 还提供了新的基于 KV Cache 的推理方案。

与通用方案中 KV Cache 只是用来加速解码的 "幕后工具" 不同,研究人员提出 KV-Embeddings,把 KV Cache 视作一种 "免费附赠" 的轻量表示,无需额外计算或存储完整隐状态,可以在链式表示推理_(Chain-of-Embedding)_和快慢思考切换等关键场景中,基于多款主流模型上实现性能持平或反超专用 embedding 模型,同时将生成 token 数最高减少 5.7×。

这些结果表明------KV Cache 不只是加速器,更是一块尚未被充分利用的 "思考缓存",为大模型推理阶段的表示复用打开了新的想象空间。

此外,诺亚方舟实验室与相关合作团队还在任务记忆、Agentic RAG、通用算法发现框架等多个方向上,沉淀了大量经过实战检验的、围绕行业智能优化的创新算法技术架构。

同时,MindScale 还也包含了适配昇腾硬件的代码实现,可以让行业开发的小伙伴们,基于国产算力实现高精度、高效的 Agent 构建。

MindScale 主页(或点击文末 "阅读原文"):
noah-mindscale.github.io/
华为诺亚方舟实验室主页:
www.noahlab.com.hk/#/home

  • 本文系量子位获授权刊载,观点仅为原作者所有。

欢迎在评论区留下你的想法!

--- ---

相关推荐
mCell6 小时前
为什么 Memo Code 先做 CLI:以及终端输入框到底有多难搞
前端·设计模式·agent
恋猫de小郭6 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
deephub6 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
冬奇Lab7 小时前
一天一个开源项目(第20篇):NanoBot - 轻量级AI Agent框架,极简高效的智能体构建工具
人工智能·开源·agent
墨风如雪9 小时前
那个霸榜的Pony Alpha现身了:智谱GLM-5硬刚Claude Opus
aigc
程序员鱼皮10 小时前
我用 GLM-5 做了个 AI 女友,能发自拍、发语音、还能帮我干活!
程序员·aigc·ai编程
阿里云云原生11 小时前
函数计算 AgentRun 重磅上线知识库功能,赋能智能体更“懂”你
agent
Invincible_11 小时前
🌟 Pi:藏在 OpenClaw 里的“最小”AI 编程助手
ai编程
hbstream11 小时前
国内四大AI编程IDE对比(二):从零构建桌面应用实测
agent
小碗细面11 小时前
AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南
aigc·ai编程