【ai_agent】从零写一个agent框架(二)如何让一个workflow/agent跑起来,runtime模块设计

前言

上篇文章我们大致演示了一下ai_agent的食用方法。这里我们做一下核心模块runtime的设计和实现。

一个agent也好,workflow也好,他们单个实现起来并不复杂,困难的是如何将他们有机的组合起来,能够按照一定的逻辑流转起来。并且能够层层嵌套,能力无限。

理解起来比较抽象,我们先看几个重点方向,和现实中的例子:

1. 简单的workflow场景

我们可以使用一个简单的workflow来处理一些场景,比如奶茶店的智能推荐,那么它的一个流程大致如下:

graph LR User --用户画像+query+上下文+其他--> pormpt pormpt --> llm llm --> answer answer --> 奶茶卡片
  • 这个流程就能看到,我们将llm,memory,prompt都当做一个节点,按照图中的顺序执行最终会得到一个推荐结果。
  • 可以说这是一个workflow的基础功能。

2. smartflow场景

对于有些问题,我们是不能够将完全预测出执行流程,比如Least-to-Mostsmartflow的场景,这些节点往往是在执行过程中慢慢生成出来的。

我们还是举个例子, 假设有这样一个agent:评阅大师,它的目标是评阅优化输入文案。那么它的工作流程可能是这样的。

graph TD user -->|文案| pf[评分llm] pf -->|评分>80| 输出 pf -->|评分<80 \n 待优化方向| yhp[追加上下文] yhp --> yh[优化llm] yh --> pf
  • 工作方式一目了然,可以理解为一个评分llm,一个优化llm。对于一个文案,评分llm不断给出需要优化的点,并追加到上下文中,优化llm则根据要求不断优化,直到评分>80。
  • 我们的流程设计肯定不能是DAG,因为出现环了。

3. multi-agent场景

multi-agent常用来解决复杂问题,对流程设计的要求也更高。比较典型的场景是狼人杀。它的流程可能长这样。

graph TD xdyt[入夜] --> zcr zcr[主持人] -->|第一轮| lrfy[狼人开刀] lrfy --> zcr zcr[主持人agent] -->|第二轮| nwfy[女巫药] nwfy --> zcr zcr[主持人agent] -->|第三轮| yyjfy[预言家查人] yyjfy --> zcr zcr[主持人agent] -->|第四轮| syrfy[所有人发言] syrfy --> gp[归票] gp --> zcr zcr -->|某个阵容胜利| 结束
  • 上图画的游戏规则并不严谨,但大体能感受到一个multi-agent的工作方式。这里面的每个角色都可以理解为一个agent,主持人可以是一个固定的脚本。
  • 这个场景要求每个agent都有自己的prompt,有独立的memory等,将一个agent放大,那么这个agent也应该是一个worlflow,由无数的节点拼接而来。也就要求我们流程设计能够层层嵌套,能力无限。

4. NL2code场景

保持开放是一个非常重要的能力,一来是能够让程序员直接写脚本。二是大模型有时候也会自己写脚本,也就是NL2Code场景。

我之前参与过一个专项,其中的一个能力是用户自由操作文档,比如文档归类,概要摘取等,结果通过text2sql存到数据库中。

这种场景下,仅仅提供有限功能的节点是不足够的。必须具备无限扩展的能力。

5. 开放域

在开放域中,agent将具备更自由的意志。举几个典型的场景:聊天室 游戏NPC 虚拟宠物

在这种应用中,agent更应该是一个完备的ai,具备更长的生命周期,更强的主观能动性。

agent从运行到结束,要像人一样,生下来就有意识,直到死亡。

简单的做法是先构建一个single agent,并让它至少有个memory+tool+设定这几个模块,最好是采用多模态大模型做基座模型。然后不断循环调用这个agent,从而达到和我一样的牛马状态。当然成本肯定极高。

另一种方法是做双循环,还是这个agent,一个循环是外界有输入后再调用agent,另一个循环是定时唤起agent的主观意识。从而节能减排。

不管是哪种方式,我更倾向于从agent外部解决。而非agent本身。

总结

现实中应用肯定不局限于这几种情况,但通过一定的流程编辑基本都可以解决,只是复杂性会比较高。

runtime 设计

一个agent的runtime大概可以看成是由这几部分构成:调度+节点服务+执行计划+上下文。

节点 service

代码仓库

一个service可以理解成一个原子能力,比如llm,比如tool,也可能是function。

我们这里做一个抽象:

rust 复制代码
pub trait Service: Send + Sync {
    async fn call(&self, flow: Flow) -> anyhow::Result<Output>;
}

执行计划

这个也很好理解,我们需要按照这个计划不断执行service。

rust 复制代码
pub trait Plan: Send + Sync {
    fn next(&self, ctx: Arc<Context>, node_id: &str) -> NextNodeResult;
    fn set(&self, nodes: Vec<PlanNode>);
    fn update(
        &self,
        node_code: &str,
        update: Box<dyn FnOnce(Option<&mut PlanNode>) -> anyhow::Result<()>>,
    ) -> anyhow::Result<()>;
}

上下文Context

这个所谓的上下文Context可以理解为 执行一个任务的具体消息,比如任务编码,堆栈信息,状态等。

  • 这里有一个子上下文的概念,也就是说在一个service里面可以执行一个子计划,也就是能力无限的实现。并且父子上下文会共享堆栈。todo:也会共享状态。
  • 这里没有做共享设计,每个Context会记录自己归属的运行时。也就是每个运行时都是独立的,为了多租户设计的。
rust 复制代码
pub struct Context {
    pub parent_code: Option<String>,
    //任务流名称
    pub code: String,
    //状态
    pub status: AtomicU8, //0:init 1:running, 2:success, 3:error
    //堆栈信息
    pub stack: Arc<Mutex<ContextStack>>,
    //执行计划
    pub plan: Arc<dyn Plan>,
    //全局扩展字段
    pub extend: Mutex<HashMap<String, Box<dyn Any + Send + Sync + 'static>>>,
    //结束时回调
    pub over_callback: Option<Mutex<Vec<Box<dyn FnOnce(Arc<Context>) + Send + Sync + 'static>>>>,
    pub(crate) runtime: Arc<Runtime>,
}

调度

调度也很简单,就是按照plan不断执行service

  • 这里做了中间层设计,也就是每个service都是一个'洋葱',一层层进,一层层出。
  • 每个service都是异步执行的,就是说如果你的plan存在并行结构,那么两个并行的分支会一起执行。
rust 复制代码
fn exec_next_node(ctx: Arc<Context>, node_code: &str) {
    let nodes = ctx.plan.next(ctx.clone(), node_code);
    ...
    for i in nodes {
        match ctx.runtime.nodes.get(i.node_type_id.as_str()) {
        ...
        };
        //将service和middle封装成一个flow执行
        let flow = Flow::new(i, ctx.clone(), middle);
        tokio::spawn(async move {
            let ctx = flow.ctx.clone();
            let result = tokio::spawn(async move {
            ... //处理一些堆栈信息
                //执行flow
                if let Err(e) = flow.call().await {
                    //错误处理
                } else {
                    //执行成功则继续执行下一个
                    Runtime::exec_next_node(ctx, code.as_str());
                }
            })
            .await;
            ... //检查错误,和故障恢复
        });
    }
}

Service layer

为了方便service的实现,我们将service再包装一层。如下:

rust 复制代码
pub  trait  ServiceLayer: Sync + Send {
    //service的配置类型
    type Config;
    //输出结果
    type Output;
    //执行过程
    async  fn call(
        &self,
        code: String,
        ctx: Arc<Context>,
        cfg: Self::Config,
    ) -> anyhow::Result<Self::Output>;
}

再为这个包装层加一个自动json解析的实现。这样入参和出参可以直接绑定到struct。

rust 复制代码
impl<T, In, Out> Service for LayerJson<T, In, Out>
where
T: ServiceLayer<Config = In, Output = Out>,
    In: for<'a> Deserialize<'a> + Send + Sync,
    Out: Serialize + Send + Sync,
{
    async  fn call(&self, flow: Flow) -> anyhow::Result<Output> {
        ... //类型解析和参数的初步处理
        //解析入参
        let cfg = match serde_json::from_str::<In>(node_config.as_str()) {
            ... //错误处理
        };
        //调用执行过程
        let output = self.handle.call(code, ctx, cfg).await ? ;
        //解析出参
        let raw = match serde_json::to_value(&output) {
            Ok(o) => o,
            Err(e) => return anyhow::anyhow!("code[{}],output json error:{}", node_info, e).err(),
        };
        Output::new(raw).raw_to_ctx().ok()
    }
}

测试

测试用例

尾语

整体runtime模块还是比较简单,比较薄的

相关推荐
代码驿站5201 小时前
Scala语言的面向对象编程
开发语言·后端·golang
JINGWHALE11 小时前
设计模式 行为型 模板方法模式(Template Method Pattern)与 常见技术框架应用 解析
前端·人工智能·后端·设计模式·性能优化·系统架构·模板方法模式
一决威严-雪雪3 小时前
springboot整合admin
java·spring boot·后端
栗筝i3 小时前
Spring 中的常用注解
java·后端·spring
Archy_Wang_13 小时前
ASP.NET Core 中使用 Cookie 身份验证
后端·asp.net
web_132334214364 小时前
简单的spring boot tomcat版本升级
spring boot·后端·tomcat
小兵张健5 小时前
创新性项目经验
java·后端·架构
凌青羽5 小时前
中国科学院|PPTAgent:超越文本到幻灯片的演示文稿生成与评估
人工智能·语言模型·自然语言处理·llm
疯狂小小小码农5 小时前
C++语言的文件操作
开发语言·后端·golang
HuggingFace6 小时前
让 LLM 来评判 | 基础概念
llm