Agent 记忆管理框架基准测试排名

文章目录

- 主流评测数据集
- [LoCoMo 综合排名（LLM Judge Score）](#LoCoMo 综合排名（LLM Judge Score）)
- [LongMemEval-S 综合排名](#LongMemEval-S 综合排名)
- [多跳推理数据集（MemMachine 论文报告）](#多跳推理数据集（MemMachine 论文报告）)
- [效率 vs 精度权衡](#效率 vs 精度权衡)
- 各框架架构特点对比
- 各框架特点详解
- - ByteRover（商业闭源）
  - MemMachine（开源）
  - [Mastra Observational Memory](#Mastra Observational Memory)
  - Hindsight
  - Honcho（plastic-labs，开源）
  - [Zep / Graphiti（开源 + 托管）](#Zep / Graphiti（开源 + 托管）)
  - [Mem0 / Mem0g（开源 + 托管）](#Mem0 / Mem0g（开源 + 托管）)
  - MemOS（学术/开源）
  - Memobase（开源）
  - [Letta（前 MemGPT，开源）](#Letta（前 MemGPT，开源）)
  - [OMEGA / MemPalace（小众，需注意公平性）](#OMEGA / MemPalace（小众，需注意公平性）)
  - [Supermemory（商业 + 开源 SDK）](#Supermemory（商业 + 开源 SDK）)
  - Backboard（商业闭源）
  - Cognee（开源）
  - [Redis Agent Memory Server（开源）](#Redis Agent Memory Server（开源）)
  - [OpenAI Memory（ChatGPT 原生）](#OpenAI Memory（ChatGPT 原生）)
- [各家评估底座配置（Eval Stack）](#各家评估底座配置（Eval Stack）)
- 综合排名总结
- [⚠️ 公平性说明](#⚠️ 公平性说明)
- 参考资料
- - [论文 / 数据集](#论文 / 数据集)
  - [厂商 / 团队博客](#厂商 / 团队博客)
  - 复现/争议讨论

数据来源（均为公开可核验）：MemMachine 论文（arXiv:2604.04853）、ByteRover 论文（arXiv:2604.01599）与官方博客、Mem0 ECAI 2025 论文（arXiv:2504.19413）、LongMemEval 论文（arXiv:2410.10813）、LoCoMo 数据集（Snap Research）、Letta Blog、Mastra Research、OMEGA Benchmarks、Honcho-benchmarks（plastic-labs/GitHub）、MemPalace BENCHMARKS.md。

各分数为各团队在自家配置下自测/公开复现的结果，底座 LLM 与评测脚本不完全一致，请配合下文 "公平性说明" 阅读。

统计截止：2026 年 4 月

主流评测数据集

数据集	特点	题目数	评测维度
LoCoMo	Snap Research 提出，10 段超长对话（平均 300 轮 / 9K token / 最多 35 会话）的多轮 QA，目前最主流	1,986（其中 ~1,540 题用于综合排名，排除 adversarial 类别）	单跳 / 多跳 / 时序 / 开放域 / 对抗
LongMemEval-S (ICLR 2025, arXiv:2410.10813)	更难，每条问题对应约 115K token 历史，含噪声会话	500	知识更新 / 单会话用户/助手/偏好 / 时序 / 跨会话
HotpotQA / WikiMultiHop	多跳推理基准	500（hard 子集）/ 不定	多跳推理
MRCR	多轮共指消解（Google Deepmind / OpenAI 评测中常用）	---	共指消解
EpBench	情节记忆基准	---	情节记忆

LoCoMo 综合排名（LLM Judge Score）

排名	框架	总分	单跳	多跳	时序	开放域	备注
🥇 1	ByteRover 2.1.5	96.1%	97.5%	93.3%	97.8%	85.9%	商业产品，Gemini 3 Flash
🥈 2	ByteRover 2.0	92.2%	95.4%	85.1%	94.4%	77.2%	-
🥉 3	MemMachine v0.2	~91.7%	94.7%	87.6%	73.5%--91.6%*	70.8%	arXiv:2604.04853
4	MemMachine (Retrieval Agent)	90.5%	-	-	-	-	Agent 模式
5	Backboard	90.0%**	89.4%	75.0%	91.9%	91.2%	商业产品自报；Hindsight 论文 (arXiv:2512.12818) 中作为 LoCoMo 横向对比基线
6	Honcho	89.9%	93.2%	84.0%	88.2%	77.1%	plastic-labs
7	Hindsight (Gemini-3)	89.6%	86.2%	70.8%	83.8%	95.1%	开放域最强；arXiv:2512.12818
8	Hindsight (OSS-120B)	85.7%	76.8%	62.5%	79.4%	93.7%	全开源 120B 配置
9	Hindsight (OSS-20B)	83.2%	74.1%	64.6%	76.3%	91.0%	单卡可部署
10	MemOS	75.8%	-	-	-	-	arXiv:2507.03724
11	Memobase	75.8%	70.9%	46.9%	85.1%	77.2%	memodb-io
12	Zep (Graphiti)	75.1%	74.1%	66.0%	79.8%	67.7%	知识图谱架构
13	Letta (MemGPT Filesystem)	74.0%	-	-	-	-	简单文件系统方式
14	Full Context（全上下文）	72.9%	-	-	-	-	⚠️ 延迟 9.87s，不可用
15	Mem0g（图增强）	68.4%	-	-	-	-	Mem0 图模式
16	Mem0	66.9%	67.1%	51.2%	55.5%	72.9%	向量模式
17	RAG（基线）	61.0%	-	-	-	-	标准检索基线
18	LangMem	58.1%	62.2%	47.9%	23.4%	71.1%	LangChain 生态；arXiv:2512.12818 LoCoMo 表
19	OpenAI Memory	52.9%	63.8%	42.9%	21.7%	62.3%	ChatGPT 原生记忆
-	A-Mem / MemoryBank / ReadAgent	< 50%	-	-	-	-	学术基线系统

* MemMachine 时序分在 gpt-4.1-mini + Agent 模式下可提升至 91.6%。

** Backboard 90.0% 为其官方 LoCoMo 排行榜自报数字，未经独立复现 ，仅作为 Hindsight 论文 (arXiv:2512.12818) 引用的参考点列出。

中后段 LoCoMo 数字主要来源于 ByteRover 官方对比博客与 Hindsight 论文 (arXiv:2512.12818) 的横向对比表（其引用了 Backboard、Memobase、Zep、Mem0、LangMem、OpenAI Memory 等公开数据），与 Mem0 论文 (arXiv:2504.19413) 的报告一致。

LongMemEval-S 综合排名

排名	框架	总分	知识更新	单会话	时序	跨会话	底座模型
🥇 1	OMEGA	95.4%	-	-	-	-	bge-small-en-v1.5
🥈 2	Mastra Observational Memory	94.87%	-	-	-	-	GPT-5-mini
🥉 3	MemMachine（最优配置）	93.0%	~100%	~98%	93.2%	87.2%	GPT-5-mini, k=100
4	ByteRover 2.1.5	92.8%	98.7%	96.7--98.6%	91.7%	84.2%	Gemini 3 Flash
5	MemMachine（Pareto 最优）	92.2%	-	-	-	-	GPT-5-mini, k=20
6	Hindsight (arXiv 2512.12818, Gemini-3)	91.4%	89.7%	95.4%	91.0%	87.2%	Gemini-3 Pro 仅做答题；记忆+Judge 用 GPT-OSS-120B
7	Honcho	90.4%	94.9%	94.3--96.4%	88.7%	85.0%	Claude Haiku 4.5
8	Hindsight (OSS-120B)	89.0%	92.3%	95.6%	85.7%	81.2%	全开源；arXiv:2512.12818
9	Supermemory (Gemini-3 Pro)	85.2%	89.7%	89.0%	82.0%	76.7%	Hindsight 论文引用 Supermemory 技术报告
10	Supermemory (GPT-5)	84.6%	87.2%	91.3%	81.2%	75.2%	同上
11	Hindsight (OSS-20B)	83.6%	84.6%	85.7%	79.7%	79.7%	单卡可部署
12	Supermemory (GPT-4o)	81.6%	88.5%	87.8%	76.7%	71.4%	自家技术报告
13	Zep (Graphiti)	71.2%	83.3%	76.7%	62.4%	57.9%	Hindsight 论文 LongMemEval 表
14	Full Context (GPT-4o)	60.2%	78.2%	65.3%	45.1%	44.3%	直接灌入 ~115K token
15	MemPalace v3（verbatim 模式，自报）	96.6%*	-	-	-	-	见公平性说明（top_k 争议）
16	MemPalace v3（AAAK 压缩模式）	84.2%	-	-	-	-	30× 压缩；准确率下降 12.4pp
17	Mastra Observational Memory	84.23%	-	-	-	-	GPT-4o

* MemPalace 96.6% 数字存在公开质疑：该分数实际是 recall_any@5 检索召回率 ，与 LongMemEval 排行榜其他系统使用的 LLM Judge 分数 口径不同，不可直接横向比较（独立分析见 Reddit r/MachineLearning u/PenfieldLabs 与 mempalace.net/benchmarks）。另一争议（top_k=50 大于候选池 ≤32，相当于退化为全量阅读）实为针对 MemPalace 的 LoCoMo 60.3% 测试，常被混淆。详见 MemPalace 官方基准说明。

多跳推理数据集（MemMachine 论文报告）

数据集	MemMachine 基础模式	MemMachine Retrieval Agent	LLM 无记忆基线
HotpotQA（hard，500 题）	91.2% accuracy	93.2%	-
WikiMultiHop	87.4%	92.6%	-
MRCR	79.6%	81.4%	32.3% ⚠️
EpBench	71.4--73.4%	71.8--73.3%	-

效率 vs 精度权衡

框架	精度（LoCoMo）	中位延迟	Token 消耗/对话
Full Context	72.9%	9.87s ⚠️	~26,000
Mem0g	68.4%	1.09s	~1,800
Mem0	66.9%	0.71s	~1,800
MemMachine	~91.7%	较低	比 Mem0 少 ~80% tokens
ByteRover 2.1.5	96.1%	p50: 1.6s, p99: 2.5s	-

各框架架构特点对比

框架	架构类型	核心优势	主要局限
ByteRover	Context Tree（会话级有序存储）	时序推理最强；生产延迟低	商业闭源
MemMachine	Ground-truth 保留 + 句级索引	单跳精度极高；token 效率好	开放域较弱
Mastra OM	无向量/图 DB，压缩观测日志	LongMemEval 最高分之一；prompt 缓存友好	不支持开放域检索
Hindsight	4 路并行检索 + 行为推理层	开放域推理（95.1%）最强	-
Honcho	推理型 dialectic agent	跨会话综合推理强	多模型管线复杂
Zep (Graphiti)	时序知识图谱	关系建模 + 时序追踪	部署配置复杂
Mem0	向量 + 可选图数据库	生态最完善，21+ 集成	精度中等；LLM 提取有漂移
MemOS	内存操作系统（MemCube 抽象）	跨类型记忆统一管理	需访问模型内部；可移植性差
Letta (MemGPT)	OS 虚拟内存层次	框架灵活；Letta Leaderboard	复杂度高；文件系统方式简单有效
Supermemory	上下文记忆 + 关系版本化 + 时间锚定 + 混合检索	LongMemEval 自报 SOTA；MCP-原生，强适配 Claude Code / OpenCode	多为自家技术报告数字；横向被独立论文测出 81--85% 区间
Backboard	商业托管记忆 API	LoCoMo 自报 90.0%（多跳 75.0% / 时序 91.9%）	商业闭源；外部独立复现少
Cognee	向量 + 多图后端（Neo4j/FalkorDB/KuzuDB/NetworkX）+ 关系元数据，Memify 后台增量富集	本地优先、可完全离线（Ollama），6 行代码上手；适合隐私敏感场景	未提供 LoCoMo / LongMemEval-S 同口径分；评测以 HotPotQA 为主
Redis Agent Memory Server	Working memory（内存）+ 长期向量（RediSearch VSS）双层	亚毫秒级会话内检索；已有 Redis 团队几乎零额外依赖	提供存储底座，记忆策略（抽取/合并/遗忘）需自行实现

各框架特点详解

以下描述综合各团队论文、官方博客与公开仓库的设计要点；商业闭源系统以其官方公开材料为准。

ByteRover（商业闭源）

核心机制：Agent-Native Memory，使用 LLM-Curated Hierarchical Markdown，将每段会话组织为按时间排序的 "Context Tree"，新事实通过 LLM curate 步骤合并入树而非简单覆盖。
检索方式：树状路径检索 + Justifier LLM 二次裁决，无外部向量库，依赖底座（Gemini 3 Flash / Pro）的长上下文能力。
优势：LoCoMo 总分与时序维度长期 SOTA；p50 ≈ 1.6s、p99 ≈ 2.5s，是少数公开 p99 数据的生产级系统。
局限：闭源、不可自部署；对底座要求较高（Gemini 3 系列），换底座后效果未公开复现。
适用场景：愿意接入 SaaS、对时序与多跳精度要求最高的产品化 Agent。

MemMachine（开源）

核心机制：Ground-truth 保留 + 句级倒排索引 + 可选 Retrieval Agent；既保留原文证据，又通过抽取层做检索增强，避免 LLM 摘要漂移。
记忆类型：episodic（情节）+ profile（用户画像）+ working memory，三层组合；提供 Python SDK 与 REST API。
优势：单跳精度极高（94.7%）、token 消耗较 Mem0 少 ~80%；LongMemEval-S 在 GPT-5-mini + k=100 配置下达到 93.0%；开源可自部署。
局限：开放域（open-domain）维度相对较弱（70.8%），需配合 Retrieval Agent 模式弥补。
适用场景：需要可审计 ground-truth、对 token 成本敏感、希望自部署的企业级 Agent。

Mastra Observational Memory

核心机制：完全不使用向量库或图数据库，由 "Observer Agent" 把每轮对话压缩为带 emoji 标注的观测日志，按时间顺序追加；查询时直接把压缩日志拼入 prompt。
优势：实现极简、prompt 缓存命中率高、成本低（官方称比 RAG 便宜 ~10×）；LongMemEval-S 在 GPT-5-mini 下达 94.87%。
局限：本质是 "压缩 + 全量阅读"，对超大规模历史不可扩展；不支持开放域语义检索；强依赖底座长上下文。
适用场景：单用户、对话长度可控（数十 K token 量级）的助理类应用。

Hindsight

核心机制：4 路并行检索（向量 / 关键词 / 时间 / 行为）+ 行为推理层（Behavioral Reasoning）。
优势：LoCoMo 开放域维度最强（95.1%）；对 "用户偏好 / 行为模式" 类问题表现突出。
局限：底座依赖 Gemini 3 Pro，成本较高；行为推理层细节未完全公开。
适用场景：偏好建模、推荐型对话、需要对长期行为做归纳的助理。

Honcho（plastic-labs，开源）

核心机制：Dialectic Agent + Deriver 双模型管线------Deriver（Gemini 2.5 Flash Lite）从历史中派生事实，Dialectic（Claude Haiku 4.5）在查询时做辩证推理。
优势：跨会话综合推理强，LongMemEval-S 跨会话维度 85.0%；开源，社区活跃。
局限：双模型管线复杂、运维与成本均高于单模型方案；延迟波动较大。
适用场景：研究型项目、需要可解释跨会话推理的对话 Agent。

Zep / Graphiti（开源 + 托管）

核心机制：Temporal Knowledge Graph，将事实抽取为带时间戳的 (主体, 关系, 客体) 三元组，支持 "事实在某时刻为真" 的时序查询。
优势：关系建模与时间冲突解决能力强；适合人物 / 项目 / 组织等强结构化领域。
局限：依赖 Neo4j，部署与调参成本高；LoCoMo 总分（75.1%）落后于无图方案，原因之一是图抽取漂移。
适用场景：CRM、HR、法务等需要显式实体关系与时间轴的领域。

Mem0 / Mem0g（开源 + 托管）

核心机制：向量库（Mem0）或向量 + Neo4j 图（Mem0g），LLM function calling 抽取事实为短句记忆，支持 update / delete 自我维护。
优势：生态最完善（21+ 框架集成：LangChain、LlamaIndex、CrewAI 等）；延迟极低（中位 0.71s），文档与示例丰富。
局限：LoCoMo 总分仅 66.9%，多跳与时序维度明显落后；LLM 抽取存在事实漂移，长会话下记忆质量退化。
适用场景：原型验证、对精度要求中等但需要快速接入主流 Agent 框架的项目。

MemOS（学术/开源）

核心机制："内存操作系统" 抽象，引入 MemCube 统一管理 plaintext / activation / parameter 三类记忆，并尝试操作模型内部 KV-cache 与 LoRA 权重。
优势：将参数化记忆纳入统一框架，理论新颖；论文系统性较强（arXiv:2507.03724）。
局限：需访问模型内部状态，对闭源 API（OpenAI/Anthropic）不可移植；LoCoMo 总分 75.8%，未达顶级。
适用场景：自研开源大模型 + 需要权重级长期记忆的研究项目。

Memobase（开源）

核心机制：以 "用户 Profile" 为中心的结构化记忆抽取，把对话归并为可读的字段化档案。
优势：用户画像维度清晰、可读性好；时序分（85.1%）在中档系统里相对突出。
局限：多跳维度仅 46.9%，对复杂事实型 QA 不友好；社区规模较 Mem0 小。
适用场景：客服 / 销售 SDR / 个性化推荐等以用户画像为主的场景。

Letta（前 MemGPT，开源）

核心机制：模仿操作系统的虚拟内存层次：core memory（常驻 prompt）+ archival memory（可分页向量库）+ recall memory（消息历史），由 Agent 自身通过工具调用调度。
优势：框架灵活、自带 Letta Leaderboard 多模型对比；"Filesystem" 简化模式以 74.0% 证明文件系统方式可与复杂方案抗衡。
局限：完整模式实现复杂、对 Agent prompt engineering 要求高；不同模式间分数差异大。
适用场景：研究型 Agent、需要显式控制记忆调度策略的项目。

OMEGA / MemPalace（小众，需注意公平性）

OMEGA：本地化（M1 MacBook 上跑），bge-small-en-v1.5 ONNX 嵌入；LongMemEval-S 自评 95.4%，但规模仅 ~240 条记忆，远小于标准 ~115K token / 40 干扰会话设置。
MemPalace v3：自报 96.6%（verbatim 模式）因 top_k=50 大于候选池（≤32）被指退化为阅读理解；其 AAAK 压缩模式 84.2% 更具可比性。
适用场景：作为参考实现学习；横向对比时优先采用其压缩 / 标准规模的次高分数。

Supermemory（商业 + 开源 SDK）

核心机制：基于 chunk 的语境化记忆（Contextual Memories）+ 关系版本化（Knowledge Chains）+ 时间锚定 + 混合检索（向量 + 关键词 + 图）+ 会话级别 ingestion；强调对"知识冲突 / 时序更新"的鲁棒性。
优势：MCP-原生、提供 Claude Code / OpenCode / Cursor 等多 IDE 插件；自家 LongMemEval-S 报告 81.6% (GPT-4o) → 84.6% (GPT-5) → 85.2% (Gemini-3 Pro)；多次刷新 SOTA 自评。
局限：核心评测主要为自家技术报告数字，独立论文（如 Hindsight arXiv:2512.12818）将其作为基线引用，但同等评测口径下仍被开源 Hindsight (OSS-120B/Gemini-3) 超过。
适用场景：编码 Agent、需要 MCP 接入的桌面助手、希望快速获得"自带 SOTA 自评"的产品化记忆 API。

Backboard（商业闭源）

核心机制：托管型记忆 API；具体抽取 / 检索栈未完整公开，对外暴露统一接口。
优势：LoCoMo 自报 90.0% 总分（单跳 89.4% / 多跳 75.0% / 时序 91.9% / 开放域 91.2%），作为商业产品在 Hindsight 论文 (arXiv:2512.12818) 中被作为对照基线引用。
局限：闭源、无独立第三方复现；论文也明确说明该数字"以官方排行榜的自报值为准"。
适用场景：希望开箱即用、对自部署没有强约束、且能接受闭源 SaaS 的团队。

Cognee（开源）

核心机制：Polystore 设计，统一封装向量库、多种图后端（Neo4j、FalkorDB、KuzuDB、NetworkX）和关系元数据；"Memify Pipeline" 在后台持续做语义关联补全与过期数据清理。
优势：完全可本地化运行（Ollama），适合隐私敏感场景；6 行代码即可启动；提供官方 Benchmark 框架与 DeepEval 集成。
局限：当前公开评测以 HotPotQA 等多跳 RAG 数据集为主，无 LoCoMo / LongMemEval-S 同口径横评；与 Mem0 / Graphiti 的对比也仅在 24 题子集 + 多次重跑下进行。
适用场景：研究 / 隐私优先的本地部署、希望在多种图后端之间自由切换的开源项目。

Redis Agent Memory Server（开源）

核心机制：将 working memory（亚毫秒会话内 KV）与长期记忆（RediSearch VSS 向量检索）分离，提供 HTTP / SDK 接口。
优势：底层是 20+ 年生产验证的 Redis；与已有 Redis 集群无缝复用，运维成本极低。
局限：本质是"低延迟存储底座"，抽取 / 合并 / 遗忘 / 时序 等记忆策略需自行实现或叠加 Mem0 / MemMachine 等上层框架。
适用场景：已经在用 Redis、对延迟敏感（实时语音 / 游戏 NPC 等）、愿意自行编写记忆策略的团队。

OpenAI Memory（ChatGPT 原生）

核心机制：黑盒；ChatGPT 应用层维护一份用户级摘要，跨会话注入。
特点：开箱即用、无需开发；但 LoCoMo 仅 52.9%，时序维度仅 21.7%，明显落后专门记忆系统。
适用场景：终端用户级轻量记忆；不适合作为生产 Agent 的长期记忆层。

各家评估底座配置（Eval Stack）

解读 LoCoMo / LongMemEval-S 分数前请先看本表 ------ 不同 "答题模型 / Judge / 抽取 / 嵌入" 组合，差异常常达到 5--10 个百分点。

框架	答题 / 检索模型（Reader）	记忆抽取 / 总结模型	Judge LLM	嵌入模型	备注 / 来源
ByteRover 2.1.5	Gemini 3 Flash	Gemini 3 Flash（curate）	Gemini 3 Flash + Gemini 3.1 Pro（justifier）	内置 Context Tree，无外部向量库	ByteRover 2.1.5 Blog
ByteRover 2.0	Gemini 3 Flash	同上	同上	同上	同上
MemMachine v0.2	GPT-4o-mini / GPT-4.1-mini（推荐 4.1-mini）	LLM 抽取 + 句级索引	GPT-4o-mini	OpenAI text-embedding-3-small	MemMachine v0.2 Blog
MemMachine（LongMemEval 最优）	GPT-5-mini	GPT-5-mini	GPT-5-mini	text-embedding-3-small（k=100）	MemMachine 论文
Hindsight (arXiv 2512.12818)	Gemini-3 Pro / GPT-OSS-120B / GPT-OSS-20B（不同配置）	GPT-OSS-20B 或 120B 抽取 + 4 路并行检索（语义/关键词/图/时间）	GPT-OSS-120B（temp=0）	未公开	Hindsight 论文 (arXiv:2512.12818)
Supermemory	GPT-4o / GPT-5 / Gemini-3 Pro（三种配置）	chunk + 关系版本化 + 时间锚定	GPT-4o（LongMemEval 标配）	未公开	Supermemory Research
Backboard	商业 SaaS（未公开）	未公开	未公开	未公开	Hindsight 论文 LoCoMo 表的官方自报参考点
Cognee	多种（OpenAI / Ollama 本地）	Polystore 抽取 + Memify	LLM-as-judge（HotPotQA）	多种向量后端	Cognee 评测博客
Hindsight (ByteRover blog)	Gemini 3 Pro	4 路并行检索 + 行为推理层	Gemini 3 Pro	未公开	ByteRover 对比
Honcho	Claude Haiku 4.5（dialectic）	Gemini 2.5 Flash Lite（deriver）	GPT-4o	未公开	Plastic Labs Benchmarking Honcho
Mastra OM	GPT-5-mini（最高分）/ GPT-4o（基线）	"Observer agent" 压缩为 emoji-标注观测	GPT-4o	不使用向量/图 DB	Mastra Research
OMEGA	Claude（local 工具调用）	自研存储 lifecycle	LongMemEval 标配	bge-small-en-v1.5（ONNX，本地）	OMEGA Benchmarks
MemPalace v3	Claude	自研 + 可选 AAAK 压缩	LongMemEval 标配	未公开	MemPalace BENCHMARKS.md
Zep / Graphiti	GPT-4o-mini（temp=0，复现 Mem0 论文设置）	LLM 抽取构建时序知识图谱	GPT-4o-mini	OpenAI text-embedding-3-small	Mem0 论文 Sec. 5
Mem0 / Mem0g	GPT-4o-mini（temp=0）	GPT-4o-mini（function calling）	GPT-4o-mini	OpenAI text-embedding-3-small；Mem0g 额外用 Neo4j	Mem0 论文
Memobase	GPT-4o-mini（fork 自 Mem0 评测）	LLM Profile 抽取	GPT-4o-mini	OpenAI text-embedding-3-small	memobase locomo-benchmark README
MemOS	GPT-4o-mini（论文报告）	LLM 抽取 + MemCube	GPT-4o-mini	未公开	MemOS arXiv:2507.03724
Letta（MemGPT Filesystem）	GPT-4o-mini（Mem0 复现）/ Letta Leaderboard 多模型	文件系统手动管理	GPT-4o-mini	取决于配置	Letta Benchmarking Blog
LangMem	GPT-4o-mini	LLM 抽取（向量扫描）	GPT-4o-mini	OpenAI text-embedding-3-small	Mem0 复现博客
OpenAI Memory	GPT-4o-mini（应用侧 ChatGPT 原生记忆）	黑盒	GPT-4o-mini	黑盒	同上
Full Context（基线）	GPT-4o-mini，~26K token 直接灌入	无	GPT-4o-mini	无	同上
RAG（基线）	GPT-4o-mini	无（仅向量检索）	GPT-4o-mini	OpenAI text-embedding-3-small	同上

仅当两套结果至少答题模型与 Judge LLM 一致时，横向对比才相对公平。例如 ByteRover (Gemini 3 Flash) vs MemMachine (GPT-4.1-mini) 的 LoCoMo 总分差异中，包含约 1--3pp 的模型差异成分。

综合排名总结

复制代码

顶级 (90%+):   ByteRover > MemMachine ≈ Mastra > Hindsight (Gemini-3) ≈ Honcho ≈ Backboard*
准顶级 (85-90%): Hindsight (OSS-120B) ≈ Supermemory (Gemini-3 / GPT-5)
中级 (70-85%): Hindsight (OSS-20B) > Supermemory (GPT-4o) > MemOS ≈ Memobase ≈ Zep > Letta Filesystem > Full-Context
基础 (50-70%): Mem0g > Mem0 > RAG > LangMem
落后 (<55%):   OpenAI Memory / A-Mem / MemoryBank
（其他：Cognee / Redis Agent Memory Server 缺 LoCoMo/LongMemEval 同口径分，未计入）

* Backboard 90.0% 为商业自报、未独立复现，仅作参考。

⚠️ 公平性说明

各团队自报数字，底座模型与 Judge LLM 不同（GPT-4o-mini / GPT-4.1-mini / GPT-5-mini / Gemini 3 Flash / Gemini 3.1 Pro / Claude Haiku 4.5），分数不完全可横向对比。
Letta/MemGPT 团队曾质疑 Mem0 对 MemGPT 的 LoCoMo 测试结果 ，认为 Mem0 未充分回填历史数据（参见 getzep/zep-papers Issue #5 与 r/LangChain 讨论）。Mem0 团队亦反向纠正了 Zep 早期 84% LoCoMo 自报数字。双方均承认 LoCoMo 复现存在脚本差异。
MemMachine 论文（arXiv:2604.04853）的官方对比表未包含 ByteRover / Hindsight / Honcho 等更新产品，本文表格中这部分对比来自 ByteRover 自家 v2.1.5 博客。
OMEGA 95.4% 是在 M1 MacBook 上 ~240 条记忆规模下测得，与 LongMemEval-S 标准设置（每问 ~115K token、40 干扰会话）规模有差异；OMEGA 自评团队也披露在更大规模 MemoryStress 测试中分数会显著下降。
MemPalace 96.6% 实际是 recall_any@5 检索召回率，不是 LongMemEval 标准的 LLM Judge 分数 ------ 指标口径与排行榜其他系统不同，不可直接比较（Penfield Labs / MemPalace 自家 BENCHMARKS.md 均已澄清）。AAAK 模式 84.2% 同样为 R@5。另外，文献中常见的 "top_k=50 大于候选池" 批评，实为针对 MemPalace LoCoMo 60.3% 测试，与 LongMemEval 96.6% 无直接关系，引用时请注意区分。
LoCoMo benchmark 的总题数为 1,986（含约 446 道 adversarial）；行业惯例排名时排除 adversarial 类别后剩约 1,540 题。Snap 官方仓库与 MemMachine、ByteRover 博客均如此处理。
多跳、跨会话、时序仍是所有系统共同的薄弱环节，单一基准分数不足以代表生产可用性，应同时关注 token 成本、p95/p99 延迟与可观测性。

Agent 记忆管理框架基准测试排名

文章目录

主流评测数据集

LoCoMo 综合排名（LLM Judge Score）

LongMemEval-S 综合排名

多跳推理数据集（MemMachine 论文报告）

效率 vs 精度权衡

各框架架构特点对比

各框架特点详解

ByteRover（商业闭源）

MemMachine（开源）

Mastra Observational Memory

Hindsight

Honcho（plastic-labs，开源）

Zep / Graphiti（开源 + 托管）

Mem0 / Mem0g（开源 + 托管）

MemOS（学术/开源）

Memobase（开源）

Letta（前 MemGPT，开源）

OMEGA / MemPalace（小众，需注意公平性）

Supermemory（商业 + 开源 SDK）

Backboard（商业闭源）

Cognee（开源）

Redis Agent Memory Server（开源）

OpenAI Memory（ChatGPT 原生）

各家评估底座配置（Eval Stack）

综合排名总结

⚠️ 公平性说明

参考资料

论文 / 数据集

厂商 / 团队博客

复现/争议讨论