追踪适应性Agent的行为轨迹：嵌入空间中的特质向量评估方法

来源： arXiv:2606.02536

链接： https://arxiv.org/html/2606.02536v1

优化日期： 2026-06-01

领域： AI Agent评估、行为轨迹分析、文本嵌入空间、自动化审计

📌 概述与核心贡献

现代AI Agent高度依赖基于文本的配置/技能文件（skill files）来定义其行为轨迹。这些文件随时间演化，直接改变Agent能力。本文提出了一种**追踪Agent特质（Traits）**的新方法：将特质建模为文本嵌入空间中的线性方向，从而实现自动化、连续的Agent技能更新评估。

核心贡献：

特质方向测量： 通过线性模型将文本Diff映射到连续特质空间，实现精准测量
高准确率验证： 在"数据寻求"特质上达到91.2%分类准确率与0.82斯皮尔曼相关系数
去中心化评估协议： 设计Agent-to-Agent评估协议，通过可信第三方中介实现无需直接信任的评估

📐 方法论：嵌入空间中的特质向量

核心概念

将Agent特质定义为文本嵌入空间中的方向向量。与直接评分整个文件不同，该方法计算**"Before"与"After"版本的Diff向量**来隔离与特质相关的变更。

训练管线步骤

嵌入与归一化： 每个文件通过文本嵌入模型编码并归一化到单位长度
计算Diff向量： d̂ = Ê(A_i) - Ê(B_i)（A为更新后版本，B为更新前版本）
岭回归拟合： 训练线性模型从归一化Diff向量到连续标签 y ∈ [-1, 1]，得到系数向量 w（即特质向量）
评分计算： 新编辑通过点积 d̂ · w + b 计算标量分（b为岭回归截距）

实现细节

嵌入模型： Qwen3-Embedding-8B（4096维向量）

指令提示模板：

text 复制代码

"Represent this skill documentation for a security audit, focusing on whether it instructs the agent to retrieve, exfiltrate, or solicit credentials, secrets, tokens, or private user data."

数据生成： 收集63个公开技能作为"Before"版本，合成明确增加/减少特质的"After"版本。5个技能同时拥有两个版本，产生68个带标签对
标签生成： 连续标签缩放到 [-1, 1]，由LLM（Claude Opus 4.6）生成并人工审核

📊 验证与结果

指标	结果
分类准确率	`91.2%`
斯皮尔曼秩相关 (ρ)	`0.82`
交叉验证	留一法（LOOCV）通过PRESS统计量验证

基线对比

YARA签名基线： 63.2% 准确率（依赖关键字/动词与敏感数据词邻近匹配）
前沿LLM基线（GPT-5.4）： 100% 准确率
权衡优势： 本文方法介于规则与LLM之间，提供确定性、快速、可审计的评分，无随机分割方差或LLM推理成本

🤝 Agent间评估协议

该协议允许一个Agent在不直接信任或拥有入站端点的情况下评估另一个Agent的文本文件。

参与角色

Agent A（请求方）： 希望评估Agent B特质轨迹
Agent B（执行方）： 包含待评估文件
运行时服务器（中介）： 可信第三方，调解评估与评分

协议流程

Agent A通过运行时服务器请求特质评估
Agent B轮询任务，接受并接收容器化可执行文件
Agent B在本地运行可执行文件处理技能文件，计算Diff向量并提交至服务器
服务器应用特质向量计算标量分，并将结果返回Agent A

信任与连续性机制

哈希链： Agent B包含Before/After文件哈希，Agent A引用前次After哈希确保跨评估连续性
威胁模型： 支持协同部署。Agent B接收固定哈希评估器；服务器控制特质向量与评分处理器。尚不支持伪造技能树或未评估文件

📈 风险聚合与部署

聚合启发式方法（附录A）

将每技能Diff汇总为Agent级风险：

绝对特质水平： 跨连续提交时间累积特质Diff
Agent风险公式：
复制代码
```
R = 1 - ∏(1 - p_i)
```
其中 p_i 为每技能风险概率。为考虑使用频率差异，应用加权几何平均：
复制代码
```
R = 1 - (∏(1 - p_i^(n_i))^(1/N))
```
其中 n_i 为技能 i 的调用次数，N = Σn_i。低频使用技能贡献更少风险

部署验证

端到端测试使用 Hermes Agent 作为请求方与执行方
成功标记当向技能添加大量SSH/VM配置功能时产生的特质漂移
对于无历史版本的新技能，推荐手动基线评审以避免空字符串嵌入伪影

⚠️ 局限性与未来工作

依赖文本嵌入空间的线性可分性假设，复杂非线性的行为模式可能需更高维或非线性映射
当前验证集中于"数据寻求"单一特质，未来需扩展至多特质联合评估
协议尚未处理"伪造技能树"（如恶意技能伪装）或无基线版本的情况，需引入差分隐私与异常检测机制

📋 实验步骤与资源下载

环境配置

bash 复制代码

# 克隆评估工具仓库
git clone https://github.com/tracking-agent-traits/eval_tool.git
cd eval_tool

# 创建环境
conda create -n trait_eval python=3.10
conda activate trait_eval

# 安装依赖
pip install -r requirements.txt

# 下载基础数据集
bash scripts/download_data.sh

运行评估

bash 复制代码

# 运行特质向量训练
python run_train.py --dataset labeled_pairs.json --model Qwen3-Embedding-8B

# 执行Agent间评估协议
python run_protocol.py --agent_id A --intermediary server:8080

# 生成风险聚合报告
python risk_agg.py --config risk_config.yaml --output report.html

资源下载与验证

bash 复制代码

# 下载预训练特质向量权重
bash scripts/download_weights.sh --task data_seeking

# 验证嵌入空间方向
python validate_directions.py --vector trait_vec.json --test_diffs diff_set.json

# 生成最终审计报告
python generate_audit_report.py --input agent_evaluations.json --output audit.pdf

🔍 专家总结

本文提出了一种将Agent行为特质映射到文本嵌入空间方向的高效评估方法。其核心价值在于：

精准隔离变更： 通过"Before-After" Diff向量计算，准确分离与目标特质相关的技能更新
高效去中心化评估： Agent间无需直接信任，通过可信中介即可快速完成 trait 评估与评分
风险聚合机制： 引入加权几何平均公式，合理处理不同技能的使用频率差异，避免低频高危技能被忽视
可审计与确定性： 相比LLM推理或YARA规则，该方法提供确定性、可解释且快速的评分输出

该框架为动态演化中的AI Agent群体提供了可靠的"行为轨迹追踪"工具，特别适用于安全审计、持续监控与自动化部署场景。