追踪适应性Agent的行为轨迹:嵌入空间中的特质向量评估方法
来源: arXiv:2606.02536
链接: https://arxiv.org/html/2606.02536v1
优化日期: 2026-06-01
领域: AI Agent评估、行为轨迹分析、文本嵌入空间、自动化审计
📌 概述与核心贡献
现代AI Agent高度依赖基于文本的配置/技能文件(skill files)来定义其行为轨迹。这些文件随时间演化,直接改变Agent能力。本文提出了一种**追踪Agent特质(Traits)**的新方法:将特质建模为文本嵌入空间中的线性方向,从而实现自动化、连续的Agent技能更新评估。
核心贡献:
- 特质方向测量: 通过线性模型将文本Diff映射到连续特质空间,实现精准测量
- 高准确率验证: 在"数据寻求"特质上达到91.2%分类准确率与0.82斯皮尔曼相关系数
- 去中心化评估协议: 设计Agent-to-Agent评估协议,通过可信第三方中介实现无需直接信任的评估
📐 方法论:嵌入空间中的特质向量
核心概念
将Agent特质定义为文本嵌入空间中的方向向量。与直接评分整个文件不同,该方法计算**"Before"与"After"版本的Diff向量**来隔离与特质相关的变更。
训练管线步骤
- 嵌入与归一化: 每个文件通过文本嵌入模型编码并归一化到单位长度
- 计算Diff向量:
d̂ = Ê(A_i) - Ê(B_i)(A为更新后版本,B为更新前版本) - 岭回归拟合: 训练线性模型从归一化Diff向量到连续标签
y ∈ [-1, 1],得到系数向量w(即特质向量) - 评分计算: 新编辑通过点积
d̂ · w + b计算标量分(b为岭回归截距)
实现细节
-
嵌入模型:
Qwen3-Embedding-8B(4096维向量) -
指令提示模板:
text"Represent this skill documentation for a security audit, focusing on whether it instructs the agent to retrieve, exfiltrate, or solicit credentials, secrets, tokens, or private user data." -
数据生成: 收集63个公开技能作为"Before"版本,合成明确增加/减少特质的"After"版本。5个技能同时拥有两个版本,产生68个带标签对
-
标签生成: 连续标签缩放到
[-1, 1],由LLM(Claude Opus 4.6)生成并人工审核
📊 验证与结果
| 指标 | 结果 |
|---|---|
| 分类准确率 | 91.2% |
| 斯皮尔曼秩相关 (ρ) | 0.82 |
| 交叉验证 | 留一法(LOOCV)通过PRESS统计量验证 |
基线对比
- YARA签名基线:
63.2%准确率(依赖关键字/动词与敏感数据词邻近匹配) - 前沿LLM基线(GPT-5.4):
100%准确率 - 权衡优势: 本文方法介于规则与LLM之间,提供确定性、快速、可审计的评分,无随机分割方差或LLM推理成本
🤝 Agent间评估协议
该协议允许一个Agent在不直接信任或拥有入站端点的情况下评估另一个Agent的文本文件。
参与角色
- Agent A(请求方): 希望评估Agent B特质轨迹
- Agent B(执行方): 包含待评估文件
- 运行时服务器(中介): 可信第三方,调解评估与评分
协议流程
- Agent A通过运行时服务器请求特质评估
- Agent B轮询任务,接受并接收容器化可执行文件
- Agent B在本地运行可执行文件处理技能文件,计算Diff向量并提交至服务器
- 服务器应用特质向量计算标量分,并将结果返回Agent A
信任与连续性机制
- 哈希链: Agent B包含Before/After文件哈希,Agent A引用前次After哈希确保跨评估连续性
- 威胁模型: 支持协同部署。Agent B接收固定哈希评估器;服务器控制特质向量与评分处理器。尚不支持伪造技能树或未评估文件
📈 风险聚合与部署
聚合启发式方法(附录A)
将每技能Diff汇总为Agent级风险:
-
绝对特质水平: 跨连续提交时间累积特质Diff
-
Agent风险公式:
R = 1 - ∏(1 - p_i)其中
p_i为每技能风险概率。为考虑使用频率差异,应用加权几何平均:R = 1 - (∏(1 - p_i^(n_i))^(1/N))其中
n_i为技能i的调用次数,N = Σn_i。低频使用技能贡献更少风险
部署验证
- 端到端测试使用 Hermes Agent 作为请求方与执行方
- 成功标记当向技能添加大量SSH/VM配置功能时产生的特质漂移
- 对于无历史版本的新技能,推荐手动基线评审以避免空字符串嵌入伪影
⚠️ 局限性与未来工作
- 依赖文本嵌入空间的线性可分性假设,复杂非线性的行为模式可能需更高维或非线性映射
- 当前验证集中于"数据寻求"单一特质,未来需扩展至多特质联合评估
- 协议尚未处理"伪造技能树"(如恶意技能伪装)或无基线版本的情况,需引入差分隐私与异常检测机制
📋 实验步骤与资源下载
环境配置
bash
# 克隆评估工具仓库
git clone https://github.com/tracking-agent-traits/eval_tool.git
cd eval_tool
# 创建环境
conda create -n trait_eval python=3.10
conda activate trait_eval
# 安装依赖
pip install -r requirements.txt
# 下载基础数据集
bash scripts/download_data.sh
运行评估
bash
# 运行特质向量训练
python run_train.py --dataset labeled_pairs.json --model Qwen3-Embedding-8B
# 执行Agent间评估协议
python run_protocol.py --agent_id A --intermediary server:8080
# 生成风险聚合报告
python risk_agg.py --config risk_config.yaml --output report.html
资源下载与验证
bash
# 下载预训练特质向量权重
bash scripts/download_weights.sh --task data_seeking
# 验证嵌入空间方向
python validate_directions.py --vector trait_vec.json --test_diffs diff_set.json
# 生成最终审计报告
python generate_audit_report.py --input agent_evaluations.json --output audit.pdf
🔍 专家总结
本文提出了一种将Agent行为特质映射到文本嵌入空间方向的高效评估方法。其核心价值在于:
- 精准隔离变更: 通过"Before-After" Diff向量计算,准确分离与目标特质相关的技能更新
- 高效去中心化评估: Agent间无需直接信任,通过可信中介即可快速完成 trait 评估与评分
- 风险聚合机制: 引入加权几何平均公式,合理处理不同技能的使用频率差异,避免低频高危技能被忽视
- 可审计与确定性: 相比LLM推理或YARA规则,该方法提供确定性、可解释且快速的评分输出
该框架为动态演化中的AI Agent群体提供了可靠的"行为轨迹追踪"工具,特别适用于安全审计、持续监控与自动化部署场景。