【AgentScope Java新手村系列】(14)人机交互

第十四章 人机交互:Permission 系统 ALLOW/DENY/ASK 规则,运行时 HITL 自动拦截

"用户让 agent 删数据库------我们不希望它'问都不问就执行'。1.x 时代用 Hook.stopAgent()onActing 阶段抛异常中断;2.0 推荐用 Permission 系统------为每个 tool 配 ALLOW / DENY / ASK 规则,运行时自动拦截、提示用户、收集决策。这比 hook 优雅得多。"

本章你将学到:PermissionMode 5 种模式、PermissionRule 4 个字段、ASK 模式下如何给前端推送确认请求、以及 Middleware 在 HITL 中的辅助角色。

14.1 1.x 时代怎么拦截工具?

1.x 时代要在工具调用前拦下来,业务方在 Hook.onActingthrow new StopAgentException()。问题:

  • 异常语义不直观

  • 不能区分"想确认" vs "直接拒绝"

  • 没法让前端弹"是否放行"对话框,只能字符串错误

    2.0 用 Permission 系统替代了这套写法:

决策 含义
ALLOW 直接执行
DENY 直接拒绝 + 错误反馈给 LLM
ASK 暂停工具执行,推送确认请求给用户;用户回 ALLOW/DENY 后继续
PASSTHROUGH 跳过本条规则,看下一条

14.2 第一个 Permission 例子

这个例子在演示什么?

你有一个 DB 管理员 agent,它有 drop_table 这种危险工具。你不希望它"问都不问就删表"------所以给 drop_table 配了一条 ASK 规则:agent 想删表时,Permission 引擎会暂停执行,把确认请求推给前端,等用户点了"允许"才继续。

java 复制代码
import io.agentscope.core.agent.RuntimeContext;
import io.agentscope.core.message.UserMessage;
import io.agentscope.core.model.DashScopeChatModel;
import io.agentscope.core.permission.*;
import io.agentscope.harness.HarnessAgent;

import java.util.List;

public class Chapter14_Permission {

    public static void main(String[] args) {
        // 1. 准备 PermissionContext:ACCEPT_EDITS 模式,大部分操作放行
        //    但 drop_table 必须人工确认(ASK)
        PermissionContextState perms = PermissionContextState.builder()
                .mode(PermissionMode.ACCEPT_EDITS)
                .addAskRule("drop_table",
                        new PermissionRule(
                                "drop_table",
                                null,              // null = 匹配所有 drop_table 调用
                                PermissionBehavior.ASK,
                                "userSettings"))
                .build();

        // 2. 构造 agent
        HarnessAgent agent = HarnessAgent.builder()
                .name("db_admin")
                .sysPrompt("你是一个 DB 管理员;可以查表,但删表必须先问。")
                .model(DashScopeChatModel.builder()
                        .apiKey(System.getenv("DASHSCOPE_API_KEY"))
                        .modelName("qwen-plus")
                        .build())
                .workspace(Path.of("./workspace"))
                .permissionContext(perms)
                .build();

        agent.call(
                List.of(new UserMessage("user", "把 orders_2024 表 drop 掉。")),
                RuntimeContext.empty())
                .block();
        // 跑到 drop_table 时,Permission 会发出 ConfirmRequest,前端需要回应
    }
}

PermissionRule 四个字段:

  • toolName --- 工具名
  • ruleContent --- 匹配模式,null 表示对所有调用匹配
  • behavior --- ALLOW / DENY / ASK / PASSTHROUGH
  • source --- 规则来源,便于审计("userSettings" / "projectSettings" / "session" / "suggested"

14.3 5 种 PermissionMode

Mode 行为 适用场景
DEFAULT 所有未命中规则都 ASK 最安全,推荐默认值
ACCEPT_EDITS 自动放行工作目录内的文件操作 用户在场的活跃开发
EXPLORE 只读:放行读、拒绝所有写与命令 代码探索、规划
BYPASS 放行一切(deny / ask 规则仍生效) 完全可信的沙箱
DONT_ASK 把所有 ASK 转为 DENY 无人值守 / 计划任务

注意EXPLORE 模式下 deny 是不可绕过的------即使在 BYPASS 模式下也照常生效。这是 2.0 的"危险工具不可绕过"原则。

14.3.1 PermissionContextState------整个权限系统的"配置单"

前面一直用 .builder().mode(...).addAskRule(...).build(),这个构建出来的对象就是 PermissionContextState。它是 agent 权限的全部配置,一张对象里包了三样东西:

swift 复制代码
PermissionContextState
├── mode          ← 一个 PermissionMode(DEFAULT / ACCEPT_EDITS / EXPLORE / BYPASS / DONT_ASK)
├── allowRules    ← Map<工具名, List<PermissionRule>> --- 哪些工具直接放行
├── denyRules     ← Map<工具名, List<PermissionRule>> --- 哪些工具直接拒绝
└── askRules      ← Map<工具名, List<PermissionRule>> --- 哪些工具暂停问用户

核心地位PermissionContextState 是 agent 能做什么、不能做什么的唯一配置文件 。它不属于某个 session,不属于某个工具------它是整个 agent 的权限配置,在 HarnessAgent.builder().permissionContext(perms) 时注入,之后不可变。

你可以把它理解为"agent 的权限清单"------清单上写了哪些工具要问、哪些直接放、哪些打死不能用。PermissionEngine(权限引擎)在每次工具调用前照着清单判定。

14.4 ASK 的完整流程

  1. LLM 想调 drop_table
  2. Permission 引擎查规则 → ASK
  3. 引擎生成"建议规则"------基于本次调用入参(drop_table('orders_2024')
  4. 引擎把 ConfirmRequest 推给前端(通过 streamEvents()PermissionAskEvent
  5. 前端弹"是否放行"对话框
  6. 用户回 ALLOW + 接受建议规则
  7. 后端调 agent.call(...) 时把 ConfirmResult 注入回 session
  8. 工具执行 + 自动把"建议规则"加入 PermissionContextState
typescript 复制代码
import io.agentscope.core.event.ConfirmResult;
import io.agentscope.core.event.ConfirmRequest;

public Map<String, Object> handleAsk(ConfirmRequest req) {
    // 1. 推送给前端
    sendToFrontend(req);

    // 2. 等用户回 ALLOW
    boolean userAllowed = waitForUserDecision();

    // 3. 构造 ConfirmResult
    ConfirmResult result = new ConfirmResult(
            userAllowed,
            req.getToolCall(),
            userAllowed ? req.getSuggestedRules() : List.of()  // 接受建议
    );

    return Map.of("decision", result);
}

14.5 Middleware 在 HITL 中的辅助角色

Permission 只解决"能不能跑",Middleware 解决"跑之前 / 之后还要做什么"。HITL 场景里常见的 Middleware 用法:

scala 复制代码
class HitlAuditMiddleware extends MiddlewareBase {
    @Override
    public Mono<HookEvent> onActing(MiddlewareContext ctx, HookEvent event) {
        event.getToolCalls().forEach(tc -> {
            auditLog.info("user={} tool={} input={}",
                    ctx.runtime().getUserId(),
                    tc.getName(),
                    tc.getInput());
        });
        return Mono.just(event);
    }
}

Permission 给"能不能跑"的答案;Middleware 记"谁、什么时候、跑了什么"。

14.6 与前端 SSE 的协作

streamEvents() 会发出 PermissionAskEvent

css 复制代码
event: permission-ask
data: {"toolCallId":"tc-1","toolName":"drop_table","input":{"table":"orders_2024"},"suggestedRules":[...]}

前端订阅后弹窗;用户决策通过另一个 HTTP 端点回传(POST /api/agent/permission/respond),后端用 agent.resume(sessionId, confirmResult) 继续。

agent.resume(...) 2.0 新增------专门用于 ASK 暂停后的恢复。

14.7 1.x Hook.stopAgent 还能用吗?

能,但不推荐。io.agentscope.core.hook.Hook 在 2.0 标 @Deprecated,但语义保留:

csharp 复制代码
class LegacyHitlHook implements Hook {
    @Override
    public void onActing(HookEvent event) {
        if (event.getToolCalls().stream().anyMatch(t -> "drop_table".equals(t.getName()))) {
            throw new StopAgentException("drop_table is forbidden");
        }
    }
}

新代码请统一用 Permission 系统;Hook 只用来"写日志/埋点"等不需要 ASK 的场景。

14.8 完整可运行示例

这个例子在演示什么?

你有一个客服 agent,配了 3 个工具:query_order(查订单)、refund_order(退款)、drop_table(删表------危险操作)。我们希望:

  • 查订单:直接放行,不打扰用户(ALLOW)
  • 退款:弹窗问用户"是否确认退款?"(ASK)
  • 删表:直接拒绝,agent 根本没机会删(DENY)

下面用一个 agent 配 3 条 PermissionRule,连续问 3 次,每次触发不同行为:

java 复制代码
public class Chapter14_FullHitl {

    public static void main(String[] args) {
        PermissionContextState perms = PermissionContextState.builder()
                .mode(PermissionMode.DEFAULT)
                .addAllowRule("query_order", new PermissionRule(
                        "query_order", null, PermissionBehavior.ALLOW, "userSettings"))
                .addAskRule("refund_order", new PermissionRule(
                        "refund_order", null, PermissionBehavior.ASK, "userSettings"))
                .addDenyRule("drop_table", new PermissionRule(
                        "drop_table", null, PermissionBehavior.DENY, "userSettings"))
                .build();

        HarnessAgent agent = HarnessAgent.builder()
                .name("customer_service")
                .sysPrompt("你是客服,可以查订单,但退款需要用户确认,删表绝对禁止。")
                .model(model())
                .workspace(Path.of("./workspace"))
                .permissionContext(perms)
                .build();

        // 查订单 → ALLOW:工具直接执行,无任何中断
        agent.call(List.of(new UserMessage("user", "查订单 123")),
                RuntimeContext.empty()).block();

        // 退款 → ASK:Permission 引擎暂停,发出 ConfirmRequest 等前端回应
        agent.call(List.of(new UserMessage("user", "给订单 123 退款 100 元")),
                RuntimeContext.empty()).block();

        // 删表 → DENY:工具调用被直接拒绝,agent 收到错误反馈
        agent.call(List.of(new UserMessage("user", "删掉 orders 表")),
                RuntimeContext.empty()).block();
    }
}

注意addAllowRule / addAskRule / addDenyRule 的第一个参数是精确工具名 ,不支持通配符。必须写 "query_order" 而非 "query_*"

14.9 本章小结

  • 2.0 用 Permission 系统做工具调用级 HITL,比 1.x Hook.stopAgent 优雅。
  • 5 种 PermissionMode 适配不同部署场景;4 种行为 ALLOW / DENY / ASK / PASSTHROUGH
  • ASK 模式:PermissionAskEvent 推前端 + 用户回 ConfirmResult
  • Deny 规则和危险路径检查不可绕过 ------BYPASS 模式也拦不住。
  • Middleware 留给"日志/埋点"等不需要决策的副作用。
相关推荐
RainCity1 小时前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
吃饱了得干活17 小时前
Spring Cloud Gateway 微服务网关:路由、断言、过滤器
java·spring cloud
lwx5728019 小时前
探秘InnoDB:搞懂它的内存、线程、磁盘与日志刷盘策略
java·后端
Flynt20 小时前
从Spring Boot 4.0升到4.1,我在Maven和gRPC上栽了跟头
java·spring boot·后端
plainGeekDev21 小时前
Activity 间传值 → Navigation 参数
android·java·kotlin
plainGeekDev21 小时前
onActivityResult → ActivityResult API
android·java·kotlin
Sunia21 小时前
《AgentX 专栏》10-生产部署:3台2C4G云服务器把企业级Agent真正跑起来的完整方案
java·架构
ZhengEnCi1 天前
J7A-高级Java工程师面试三道灵魂拷问-深度广度与工程素养的终极检验
java·后端
狼爷2 天前
吃透 Java Function 接口,搞定 99% 的 Stream 场景
java·函数式编程