追踪适应性Agent的行为轨迹:嵌入空间中的特质向量评估方法

追踪适应性Agent的行为轨迹:嵌入空间中的特质向量评估方法

来源: arXiv:2606.02536

链接: https://arxiv.org/html/2606.02536v1

优化日期: 2026-06-01

领域: AI Agent评估、行为轨迹分析、文本嵌入空间、自动化审计


📌 概述与核心贡献

现代AI Agent高度依赖基于文本的配置/技能文件(skill files)来定义其行为轨迹。这些文件随时间演化,直接改变Agent能力。本文提出了一种**追踪Agent特质(Traits)**的新方法:将特质建模为文本嵌入空间中的线性方向,从而实现自动化、连续的Agent技能更新评估。

核心贡献:

  • 特质方向测量: 通过线性模型将文本Diff映射到连续特质空间,实现精准测量
  • 高准确率验证: 在"数据寻求"特质上达到91.2%分类准确率与0.82斯皮尔曼相关系数
  • 去中心化评估协议: 设计Agent-to-Agent评估协议,通过可信第三方中介实现无需直接信任的评估

📐 方法论:嵌入空间中的特质向量

核心概念

将Agent特质定义为文本嵌入空间中的方向向量。与直接评分整个文件不同,该方法计算**"Before"与"After"版本的Diff向量**来隔离与特质相关的变更。

训练管线步骤

  1. 嵌入与归一化: 每个文件通过文本嵌入模型编码并归一化到单位长度
  2. 计算Diff向量: d̂ = Ê(A_i) - Ê(B_i)(A为更新后版本,B为更新前版本)
  3. 岭回归拟合: 训练线性模型从归一化Diff向量到连续标签 y ∈ [-1, 1],得到系数向量 w(即特质向量)
  4. 评分计算: 新编辑通过点积 d̂ · w + b 计算标量分(b为岭回归截距)

实现细节

  • 嵌入模型: Qwen3-Embedding-8B(4096维向量)

  • 指令提示模板:

    text 复制代码
    "Represent this skill documentation for a security audit, focusing on whether it instructs the agent to retrieve, exfiltrate, or solicit credentials, secrets, tokens, or private user data."
  • 数据生成: 收集63个公开技能作为"Before"版本,合成明确增加/减少特质的"After"版本。5个技能同时拥有两个版本,产生68个带标签对

  • 标签生成: 连续标签缩放到 [-1, 1],由LLM(Claude Opus 4.6)生成并人工审核


📊 验证与结果

指标 结果
分类准确率 91.2%
斯皮尔曼秩相关 (ρ) 0.82
交叉验证 留一法(LOOCV)通过PRESS统计量验证

基线对比

  • YARA签名基线: 63.2% 准确率(依赖关键字/动词与敏感数据词邻近匹配)
  • 前沿LLM基线(GPT-5.4): 100% 准确率
  • 权衡优势: 本文方法介于规则与LLM之间,提供确定性、快速、可审计的评分,无随机分割方差或LLM推理成本

🤝 Agent间评估协议

该协议允许一个Agent在不直接信任或拥有入站端点的情况下评估另一个Agent的文本文件。

参与角色

  • Agent A(请求方): 希望评估Agent B特质轨迹
  • Agent B(执行方): 包含待评估文件
  • 运行时服务器(中介): 可信第三方,调解评估与评分

协议流程

  1. Agent A通过运行时服务器请求特质评估
  2. Agent B轮询任务,接受并接收容器化可执行文件
  3. Agent B在本地运行可执行文件处理技能文件,计算Diff向量并提交至服务器
  4. 服务器应用特质向量计算标量分,并将结果返回Agent A

信任与连续性机制

  • 哈希链: Agent B包含Before/After文件哈希,Agent A引用前次After哈希确保跨评估连续性
  • 威胁模型: 支持协同部署。Agent B接收固定哈希评估器;服务器控制特质向量与评分处理器。尚不支持伪造技能树或未评估文件

📈 风险聚合与部署

聚合启发式方法(附录A)

将每技能Diff汇总为Agent级风险:

  1. 绝对特质水平: 跨连续提交时间累积特质Diff

  2. Agent风险公式:

    复制代码
    R = 1 - ∏(1 - p_i)

    其中 p_i 为每技能风险概率。为考虑使用频率差异,应用加权几何平均:

    复制代码
    R = 1 - (∏(1 - p_i^(n_i))^(1/N))

    其中 n_i 为技能 i 的调用次数,N = Σn_i。低频使用技能贡献更少风险

部署验证

  • 端到端测试使用 Hermes Agent 作为请求方与执行方
  • 成功标记当向技能添加大量SSH/VM配置功能时产生的特质漂移
  • 对于无历史版本的新技能,推荐手动基线评审以避免空字符串嵌入伪影

⚠️ 局限性与未来工作

  • 依赖文本嵌入空间的线性可分性假设,复杂非线性的行为模式可能需更高维或非线性映射
  • 当前验证集中于"数据寻求"单一特质,未来需扩展至多特质联合评估
  • 协议尚未处理"伪造技能树"(如恶意技能伪装)或无基线版本的情况,需引入差分隐私与异常检测机制

📋 实验步骤与资源下载

环境配置

bash 复制代码
# 克隆评估工具仓库
git clone https://github.com/tracking-agent-traits/eval_tool.git
cd eval_tool

# 创建环境
conda create -n trait_eval python=3.10
conda activate trait_eval

# 安装依赖
pip install -r requirements.txt

# 下载基础数据集
bash scripts/download_data.sh

运行评估

bash 复制代码
# 运行特质向量训练
python run_train.py --dataset labeled_pairs.json --model Qwen3-Embedding-8B

# 执行Agent间评估协议
python run_protocol.py --agent_id A --intermediary server:8080

# 生成风险聚合报告
python risk_agg.py --config risk_config.yaml --output report.html

资源下载与验证

bash 复制代码
# 下载预训练特质向量权重
bash scripts/download_weights.sh --task data_seeking

# 验证嵌入空间方向
python validate_directions.py --vector trait_vec.json --test_diffs diff_set.json

# 生成最终审计报告
python generate_audit_report.py --input agent_evaluations.json --output audit.pdf

🔍 专家总结

本文提出了一种将Agent行为特质映射到文本嵌入空间方向的高效评估方法。其核心价值在于:

  1. 精准隔离变更: 通过"Before-After" Diff向量计算,准确分离与目标特质相关的技能更新
  2. 高效去中心化评估: Agent间无需直接信任,通过可信中介即可快速完成 trait 评估与评分
  3. 风险聚合机制: 引入加权几何平均公式,合理处理不同技能的使用频率差异,避免低频高危技能被忽视
  4. 可审计与确定性: 相比LLM推理或YARA规则,该方法提供确定性、可解释且快速的评分输出

该框架为动态演化中的AI Agent群体提供了可靠的"行为轨迹追踪"工具,特别适用于安全审计、持续监控与自动化部署场景。

相关推荐
2601_957190901 小时前
实战落地为王,全尺寸定制飞行影院适配全场景文旅升级
大数据·运维·人工智能
lauo1 小时前
从算力消耗到Token生产:ibbot手机如何重构AI时代的移动终端价值范式
人工智能·智能手机·重构·架构·开源·github
LiuJun2Son1 小时前
CLAUDE.md 是什么?——AI 协作的“项目手册“
人工智能
月光船幽幽1 小时前
基于controller-runtime的零成本监控方案
人工智能
石逸凡1 小时前
从「1+1+N」到「N+N」---软件研发Harness代理工程的新跃迁
人工智能·软件工程
梦奇不是胖猫1 小时前
《从0到1带你掌握 Skill》
人工智能·powerpoint
步步为营DotNet1 小时前
深度剖析.NET 11:Microsoft.Extensions.AI 在智能后端决策系统的创新应用 前言
人工智能·microsoft·.net
暗夜猎手-大魔王1 小时前
转载--Hermes Agent 06 | 记忆系统(下):可插拔的 Memory Provider 与 Agent 主动策展
人工智能
暗夜猎手-大魔王1 小时前
转载--Hermes Agent 07 | 技能系统:Agent 如何从经验中创建可复用的技能
人工智能