文章目录
-
- 主流评测数据集
- [LoCoMo 综合排名(LLM Judge Score)](#LoCoMo 综合排名(LLM Judge Score))
- [LongMemEval-S 综合排名](#LongMemEval-S 综合排名)
- [多跳推理数据集(MemMachine 论文报告)](#多跳推理数据集(MemMachine 论文报告))
- [效率 vs 精度权衡](#效率 vs 精度权衡)
- 各框架架构特点对比
- 各框架特点详解
-
- ByteRover(商业闭源)
- MemMachine(开源)
- [Mastra Observational Memory](#Mastra Observational Memory)
- Hindsight
- Honcho(plastic-labs,开源)
- [Zep / Graphiti(开源 + 托管)](#Zep / Graphiti(开源 + 托管))
- [Mem0 / Mem0g(开源 + 托管)](#Mem0 / Mem0g(开源 + 托管))
- MemOS(学术/开源)
- Memobase(开源)
- [Letta(前 MemGPT,开源)](#Letta(前 MemGPT,开源))
- [OMEGA / MemPalace(小众,需注意公平性)](#OMEGA / MemPalace(小众,需注意公平性))
- [Supermemory(商业 + 开源 SDK)](#Supermemory(商业 + 开源 SDK))
- Backboard(商业闭源)
- Cognee(开源)
- [Redis Agent Memory Server(开源)](#Redis Agent Memory Server(开源))
- [OpenAI Memory(ChatGPT 原生)](#OpenAI Memory(ChatGPT 原生))
- [各家评估底座配置(Eval Stack)](#各家评估底座配置(Eval Stack))
- 综合排名总结
- [⚠️ 公平性说明](#⚠️ 公平性说明)
- 参考资料
-
- [论文 / 数据集](#论文 / 数据集)
- [厂商 / 团队博客](#厂商 / 团队博客)
- 复现/争议讨论
数据来源(均为公开可核验):MemMachine 论文(arXiv:2604.04853)、ByteRover 论文(arXiv:2604.01599)与官方博客、Mem0 ECAI 2025 论文(arXiv:2504.19413)、LongMemEval 论文(arXiv:2410.10813)、LoCoMo 数据集(Snap Research)、Letta Blog、Mastra Research、OMEGA Benchmarks、Honcho-benchmarks(plastic-labs/GitHub)、MemPalace BENCHMARKS.md。
各分数为各团队在自家配置下自测/公开复现的结果,底座 LLM 与评测脚本不完全一致,请配合下文 "公平性说明" 阅读。
统计截止:2026 年 4 月
主流评测数据集
| 数据集 | 特点 | 题目数 | 评测维度 |
|---|---|---|---|
| LoCoMo | Snap Research 提出,10 段超长对话(平均 300 轮 / 9K token / 最多 35 会话)的多轮 QA,目前最主流 | 1,986(其中 ~1,540 题用于综合排名,排除 adversarial 类别) | 单跳 / 多跳 / 时序 / 开放域 / 对抗 |
| LongMemEval-S (ICLR 2025, arXiv:2410.10813) | 更难,每条问题对应约 115K token 历史,含噪声会话 | 500 | 知识更新 / 单会话 用户/助手/偏好 / 时序 / 跨会话 |
| HotpotQA / WikiMultiHop | 多跳推理基准 | 500(hard 子集)/ 不定 | 多跳推理 |
| MRCR | 多轮共指消解(Google Deepmind / OpenAI 评测中常用) | --- | 共指消解 |
| EpBench | 情节记忆基准 | --- | 情节记忆 |
LoCoMo 综合排名(LLM Judge Score)
| 排名 | 框架 | 总分 | 单跳 | 多跳 | 时序 | 开放域 | 备注 |
|---|---|---|---|---|---|---|---|
| 🥇 1 | ByteRover 2.1.5 | 96.1% | 97.5% | 93.3% | 97.8% | 85.9% | 商业产品,Gemini 3 Flash |
| 🥈 2 | ByteRover 2.0 | 92.2% | 95.4% | 85.1% | 94.4% | 77.2% | - |
| 🥉 3 | MemMachine v0.2 | ~91.7% | 94.7% | 87.6% | 73.5%--91.6%* | 70.8% | arXiv:2604.04853 |
| 4 | MemMachine (Retrieval Agent) | 90.5% | - | - | - | - | Agent 模式 |
| 5 | Backboard | 90.0%** | 89.4% | 75.0% | 91.9% | 91.2% | 商业产品自报;Hindsight 论文 (arXiv:2512.12818) 中作为 LoCoMo 横向对比基线 |
| 6 | Honcho | 89.9% | 93.2% | 84.0% | 88.2% | 77.1% | plastic-labs |
| 7 | Hindsight (Gemini-3) | 89.6% | 86.2% | 70.8% | 83.8% | 95.1% | 开放域最强;arXiv:2512.12818 |
| 8 | Hindsight (OSS-120B) | 85.7% | 76.8% | 62.5% | 79.4% | 93.7% | 全开源 120B 配置 |
| 9 | Hindsight (OSS-20B) | 83.2% | 74.1% | 64.6% | 76.3% | 91.0% | 单卡可部署 |
| 10 | MemOS | 75.8% | - | - | - | - | arXiv:2507.03724 |
| 11 | Memobase | 75.8% | 70.9% | 46.9% | 85.1% | 77.2% | memodb-io |
| 12 | Zep (Graphiti) | 75.1% | 74.1% | 66.0% | 79.8% | 67.7% | 知识图谱架构 |
| 13 | Letta (MemGPT Filesystem) | 74.0% | - | - | - | - | 简单文件系统方式 |
| 14 | Full Context(全上下文) | 72.9% | - | - | - | - | ⚠️ 延迟 9.87s,不可用 |
| 15 | Mem0g(图增强) | 68.4% | - | - | - | - | Mem0 图模式 |
| 16 | Mem0 | 66.9% | 67.1% | 51.2% | 55.5% | 72.9% | 向量模式 |
| 17 | RAG(基线) | 61.0% | - | - | - | - | 标准检索基线 |
| 18 | LangMem | 58.1% | 62.2% | 47.9% | 23.4% | 71.1% | LangChain 生态;arXiv:2512.12818 LoCoMo 表 |
| 19 | OpenAI Memory | 52.9% | 63.8% | 42.9% | 21.7% | 62.3% | ChatGPT 原生记忆 |
| - | A-Mem / MemoryBank / ReadAgent | < 50% | - | - | - | - | 学术基线系统 |
* MemMachine 时序分在 gpt-4.1-mini + Agent 模式下可提升至 91.6%。
** Backboard 90.0% 为其官方 LoCoMo 排行榜自报数字,未经独立复现 ,仅作为 Hindsight 论文 (arXiv:2512.12818) 引用的参考点列出。
中后段 LoCoMo 数字主要来源于 ByteRover 官方对比博客与 Hindsight 论文 (arXiv:2512.12818) 的横向对比表(其引用了 Backboard、Memobase、Zep、Mem0、LangMem、OpenAI Memory 等公开数据),与 Mem0 论文 (arXiv:2504.19413) 的报告一致。
LongMemEval-S 综合排名
| 排名 | 框架 | 总分 | 知识更新 | 单会话 | 时序 | 跨会话 | 底座模型 |
|---|---|---|---|---|---|---|---|
| 🥇 1 | OMEGA | 95.4% | - | - | - | - | bge-small-en-v1.5 |
| 🥈 2 | Mastra Observational Memory | 94.87% | - | - | - | - | GPT-5-mini |
| 🥉 3 | MemMachine(最优配置) | 93.0% | ~100% | ~98% | 93.2% | 87.2% | GPT-5-mini, k=100 |
| 4 | ByteRover 2.1.5 | 92.8% | 98.7% | 96.7--98.6% | 91.7% | 84.2% | Gemini 3 Flash |
| 5 | MemMachine(Pareto 最优) | 92.2% | - | - | - | - | GPT-5-mini, k=20 |
| 6 | Hindsight (arXiv 2512.12818, Gemini-3) | 91.4% | 89.7% | 95.4% | 91.0% | 87.2% | Gemini-3 Pro 仅做答题;记忆+Judge 用 GPT-OSS-120B |
| 7 | Honcho | 90.4% | 94.9% | 94.3--96.4% | 88.7% | 85.0% | Claude Haiku 4.5 |
| 8 | Hindsight (OSS-120B) | 89.0% | 92.3% | 95.6% | 85.7% | 81.2% | 全开源;arXiv:2512.12818 |
| 9 | Supermemory (Gemini-3 Pro) | 85.2% | 89.7% | 89.0% | 82.0% | 76.7% | Hindsight 论文引用 Supermemory 技术报告 |
| 10 | Supermemory (GPT-5) | 84.6% | 87.2% | 91.3% | 81.2% | 75.2% | 同上 |
| 11 | Hindsight (OSS-20B) | 83.6% | 84.6% | 85.7% | 79.7% | 79.7% | 单卡可部署 |
| 12 | Supermemory (GPT-4o) | 81.6% | 88.5% | 87.8% | 76.7% | 71.4% | 自家技术报告 |
| 13 | Zep (Graphiti) | 71.2% | 83.3% | 76.7% | 62.4% | 57.9% | Hindsight 论文 LongMemEval 表 |
| 14 | Full Context (GPT-4o) | 60.2% | 78.2% | 65.3% | 45.1% | 44.3% | 直接灌入 ~115K token |
| 15 | MemPalace v3(verbatim 模式,自报) | 96.6%* | - | - | - | - | 见公平性说明(top_k 争议) |
| 16 | MemPalace v3(AAAK 压缩模式) | 84.2% | - | - | - | - | 30× 压缩;准确率下降 12.4pp |
| 17 | Mastra Observational Memory | 84.23% | - | - | - | - | GPT-4o |
* MemPalace 96.6% 数字存在公开质疑:该分数实际是
recall_any@5检索召回率 ,与 LongMemEval 排行榜其他系统使用的 LLM Judge 分数 口径不同,不可直接横向比较(独立分析见 Reddit r/MachineLearning u/PenfieldLabs 与 mempalace.net/benchmarks)。另一争议(top_k=50 大于候选池 ≤32,相当于退化为全量阅读)实为针对 MemPalace 的 LoCoMo 60.3% 测试,常被混淆。详见 MemPalace 官方基准说明。
多跳推理数据集(MemMachine 论文报告)
| 数据集 | MemMachine 基础模式 | MemMachine Retrieval Agent | LLM 无记忆基线 |
|---|---|---|---|
| HotpotQA(hard,500 题) | 91.2% accuracy | 93.2% | - |
| WikiMultiHop | 87.4% | 92.6% | - |
| MRCR | 79.6% | 81.4% | 32.3% ⚠️ |
| EpBench | 71.4--73.4% | 71.8--73.3% | - |
效率 vs 精度权衡
| 框架 | 精度(LoCoMo) | 中位延迟 | Token 消耗/对话 |
|---|---|---|---|
| Full Context | 72.9% | 9.87s ⚠️ | ~26,000 |
| Mem0g | 68.4% | 1.09s | ~1,800 |
| Mem0 | 66.9% | 0.71s | ~1,800 |
| MemMachine | ~91.7% | 较低 | 比 Mem0 少 ~80% tokens |
| ByteRover 2.1.5 | 96.1% | p50: 1.6s, p99: 2.5s | - |
各框架架构特点对比
| 框架 | 架构类型 | 核心优势 | 主要局限 |
|---|---|---|---|
| ByteRover | Context Tree(会话级有序存储) | 时序推理最强;生产延迟低 | 商业闭源 |
| MemMachine | Ground-truth 保留 + 句级索引 | 单跳精度极高;token 效率好 | 开放域较弱 |
| Mastra OM | 无向量/图 DB,压缩观测日志 | LongMemEval 最高分之一;prompt 缓存友好 | 不支持开放域检索 |
| Hindsight | 4 路并行检索 + 行为推理层 | 开放域推理(95.1%)最强 | - |
| Honcho | 推理型 dialectic agent | 跨会话综合推理强 | 多模型管线复杂 |
| Zep (Graphiti) | 时序知识图谱 | 关系建模 + 时序追踪 | 部署配置复杂 |
| Mem0 | 向量 + 可选图数据库 | 生态最完善,21+ 集成 | 精度中等;LLM 提取有漂移 |
| MemOS | 内存操作系统(MemCube 抽象) | 跨类型记忆统一管理 | 需访问模型内部;可移植性差 |
| Letta (MemGPT) | OS 虚拟内存层次 | 框架灵活;Letta Leaderboard | 复杂度高;文件系统方式简单有效 |
| Supermemory | 上下文记忆 + 关系版本化 + 时间锚定 + 混合检索 | LongMemEval 自报 SOTA;MCP-原生,强适配 Claude Code / OpenCode | 多为自家技术报告数字;横向被独立论文测出 81--85% 区间 |
| Backboard | 商业托管记忆 API | LoCoMo 自报 90.0%(多跳 75.0% / 时序 91.9%) | 商业闭源;外部独立复现少 |
| Cognee | 向量 + 多图后端(Neo4j/FalkorDB/KuzuDB/NetworkX)+ 关系元数据,Memify 后台增量富集 | 本地优先、可完全离线(Ollama),6 行代码上手;适合隐私敏感场景 | 未提供 LoCoMo / LongMemEval-S 同口径分;评测以 HotPotQA 为主 |
| Redis Agent Memory Server | Working memory(内存)+ 长期向量(RediSearch VSS)双层 | 亚毫秒级会话内检索;已有 Redis 团队几乎零额外依赖 | 提供存储底座,记忆策略(抽取/合并/遗忘)需自行实现 |
各框架特点详解
以下描述综合各团队论文、官方博客与公开仓库的设计要点;商业闭源系统以其官方公开材料为准。
ByteRover(商业闭源)
- 核心机制:Agent-Native Memory,使用 LLM-Curated Hierarchical Markdown,将每段会话组织为按时间排序的 "Context Tree",新事实通过 LLM curate 步骤合并入树而非简单覆盖。
- 检索方式:树状路径检索 + Justifier LLM 二次裁决,无外部向量库,依赖底座(Gemini 3 Flash / Pro)的长上下文能力。
- 优势:LoCoMo 总分与时序维度长期 SOTA;p50 ≈ 1.6s、p99 ≈ 2.5s,是少数公开 p99 数据的生产级系统。
- 局限:闭源、不可自部署;对底座要求较高(Gemini 3 系列),换底座后效果未公开复现。
- 适用场景:愿意接入 SaaS、对时序与多跳精度要求最高的产品化 Agent。
MemMachine(开源)
- 核心机制:Ground-truth 保留 + 句级倒排索引 + 可选 Retrieval Agent;既保留原文证据,又通过抽取层做检索增强,避免 LLM 摘要漂移。
- 记忆类型:episodic(情节)+ profile(用户画像)+ working memory,三层组合;提供 Python SDK 与 REST API。
- 优势:单跳精度极高(94.7%)、token 消耗较 Mem0 少 ~80%;LongMemEval-S 在 GPT-5-mini + k=100 配置下达到 93.0%;开源可自部署。
- 局限:开放域(open-domain)维度相对较弱(70.8%),需配合 Retrieval Agent 模式弥补。
- 适用场景:需要可审计 ground-truth、对 token 成本敏感、希望自部署的企业级 Agent。
Mastra Observational Memory
- 核心机制:完全不使用向量库或图数据库,由 "Observer Agent" 把每轮对话压缩为带 emoji 标注的观测日志,按时间顺序追加;查询时直接把压缩日志拼入 prompt。
- 优势:实现极简、prompt 缓存命中率高、成本低(官方称比 RAG 便宜 ~10×);LongMemEval-S 在 GPT-5-mini 下达 94.87%。
- 局限:本质是 "压缩 + 全量阅读",对超大规模历史不可扩展;不支持开放域语义检索;强依赖底座长上下文。
- 适用场景:单用户、对话长度可控(数十 K token 量级)的助理类应用。
Hindsight
- 核心机制:4 路并行检索(向量 / 关键词 / 时间 / 行为)+ 行为推理层(Behavioral Reasoning)。
- 优势:LoCoMo 开放域维度最强(95.1%);对 "用户偏好 / 行为模式" 类问题表现突出。
- 局限:底座依赖 Gemini 3 Pro,成本较高;行为推理层细节未完全公开。
- 适用场景:偏好建模、推荐型对话、需要对长期行为做归纳的助理。
Honcho(plastic-labs,开源)
- 核心机制:Dialectic Agent + Deriver 双模型管线------Deriver(Gemini 2.5 Flash Lite)从历史中派生事实,Dialectic(Claude Haiku 4.5)在查询时做辩证推理。
- 优势:跨会话综合推理强,LongMemEval-S 跨会话维度 85.0%;开源,社区活跃。
- 局限:双模型管线复杂、运维与成本均高于单模型方案;延迟波动较大。
- 适用场景:研究型项目、需要可解释跨会话推理的对话 Agent。
Zep / Graphiti(开源 + 托管)
- 核心机制:Temporal Knowledge Graph,将事实抽取为带时间戳的 (主体, 关系, 客体) 三元组,支持 "事实在某时刻为真" 的时序查询。
- 优势:关系建模与时间冲突解决能力强;适合人物 / 项目 / 组织等强结构化领域。
- 局限:依赖 Neo4j,部署与调参成本高;LoCoMo 总分(75.1%)落后于无图方案,原因之一是图抽取漂移。
- 适用场景:CRM、HR、法务等需要显式实体关系与时间轴的领域。
Mem0 / Mem0g(开源 + 托管)
- 核心机制:向量库(Mem0)或向量 + Neo4j 图(Mem0g),LLM function calling 抽取事实为短句记忆,支持 update / delete 自我维护。
- 优势:生态最完善(21+ 框架集成:LangChain、LlamaIndex、CrewAI 等);延迟极低(中位 0.71s),文档与示例丰富。
- 局限:LoCoMo 总分仅 66.9%,多跳与时序维度明显落后;LLM 抽取存在事实漂移,长会话下记忆质量退化。
- 适用场景:原型验证、对精度要求中等但需要快速接入主流 Agent 框架的项目。
MemOS(学术/开源)
- 核心机制:"内存操作系统" 抽象,引入 MemCube 统一管理 plaintext / activation / parameter 三类记忆,并尝试操作模型内部 KV-cache 与 LoRA 权重。
- 优势:将参数化记忆纳入统一框架,理论新颖;论文系统性较强(arXiv:2507.03724)。
- 局限:需访问模型内部状态,对闭源 API(OpenAI/Anthropic)不可移植;LoCoMo 总分 75.8%,未达顶级。
- 适用场景:自研开源大模型 + 需要权重级长期记忆的研究项目。
Memobase(开源)
- 核心机制:以 "用户 Profile" 为中心的结构化记忆抽取,把对话归并为可读的字段化档案。
- 优势:用户画像维度清晰、可读性好;时序分(85.1%)在中档系统里相对突出。
- 局限:多跳维度仅 46.9%,对复杂事实型 QA 不友好;社区规模较 Mem0 小。
- 适用场景:客服 / 销售 SDR / 个性化推荐等以用户画像为主的场景。
Letta(前 MemGPT,开源)
- 核心机制:模仿操作系统的虚拟内存层次:core memory(常驻 prompt)+ archival memory(可分页向量库)+ recall memory(消息历史),由 Agent 自身通过工具调用调度。
- 优势:框架灵活、自带 Letta Leaderboard 多模型对比;"Filesystem" 简化模式以 74.0% 证明文件系统方式可与复杂方案抗衡。
- 局限:完整模式实现复杂、对 Agent prompt engineering 要求高;不同模式间分数差异大。
- 适用场景:研究型 Agent、需要显式控制记忆调度策略的项目。
OMEGA / MemPalace(小众,需注意公平性)
- OMEGA:本地化(M1 MacBook 上跑),bge-small-en-v1.5 ONNX 嵌入;LongMemEval-S 自评 95.4%,但规模仅 ~240 条记忆,远小于标准 ~115K token / 40 干扰会话设置。
- MemPalace v3:自报 96.6%(verbatim 模式)因 top_k=50 大于候选池(≤32)被指退化为阅读理解;其 AAAK 压缩模式 84.2% 更具可比性。
- 适用场景:作为参考实现学习;横向对比时优先采用其压缩 / 标准规模的次高分数。
Supermemory(商业 + 开源 SDK)
- 核心机制:基于 chunk 的语境化记忆(Contextual Memories)+ 关系版本化(Knowledge Chains)+ 时间锚定 + 混合检索(向量 + 关键词 + 图)+ 会话级别 ingestion;强调对"知识冲突 / 时序更新"的鲁棒性。
- 优势:MCP-原生、提供 Claude Code / OpenCode / Cursor 等多 IDE 插件;自家 LongMemEval-S 报告 81.6% (GPT-4o) → 84.6% (GPT-5) → 85.2% (Gemini-3 Pro);多次刷新 SOTA 自评。
- 局限:核心评测主要为自家技术报告数字,独立论文(如 Hindsight arXiv:2512.12818)将其作为基线引用,但同等评测口径下仍被开源 Hindsight (OSS-120B/Gemini-3) 超过。
- 适用场景:编码 Agent、需要 MCP 接入的桌面助手、希望快速获得"自带 SOTA 自评"的产品化记忆 API。
Backboard(商业闭源)
- 核心机制:托管型记忆 API;具体抽取 / 检索栈未完整公开,对外暴露统一接口。
- 优势:LoCoMo 自报 90.0% 总分(单跳 89.4% / 多跳 75.0% / 时序 91.9% / 开放域 91.2%),作为商业产品在 Hindsight 论文 (arXiv:2512.12818) 中被作为对照基线引用。
- 局限:闭源、无独立第三方复现;论文也明确说明该数字"以官方排行榜的自报值为准"。
- 适用场景:希望开箱即用、对自部署没有强约束、且能接受闭源 SaaS 的团队。
Cognee(开源)
- 核心机制:Polystore 设计,统一封装向量库、多种图后端(Neo4j、FalkorDB、KuzuDB、NetworkX)和关系元数据;"Memify Pipeline" 在后台持续做语义关联补全与过期数据清理。
- 优势:完全可本地化运行(Ollama),适合隐私敏感场景;6 行代码即可启动;提供官方 Benchmark 框架与 DeepEval 集成。
- 局限 :当前公开评测以 HotPotQA 等多跳 RAG 数据集为主,无 LoCoMo / LongMemEval-S 同口径横评;与 Mem0 / Graphiti 的对比也仅在 24 题子集 + 多次重跑下进行。
- 适用场景:研究 / 隐私优先的本地部署、希望在多种图后端之间自由切换的开源项目。
Redis Agent Memory Server(开源)
- 核心机制:将 working memory(亚毫秒会话内 KV)与长期记忆(RediSearch VSS 向量检索)分离,提供 HTTP / SDK 接口。
- 优势:底层是 20+ 年生产验证的 Redis;与已有 Redis 集群无缝复用,运维成本极低。
- 局限 :本质是"低延迟存储底座",抽取 / 合并 / 遗忘 / 时序 等记忆策略需自行实现或叠加 Mem0 / MemMachine 等上层框架。
- 适用场景:已经在用 Redis、对延迟敏感(实时语音 / 游戏 NPC 等)、愿意自行编写记忆策略的团队。
OpenAI Memory(ChatGPT 原生)
- 核心机制:黑盒;ChatGPT 应用层维护一份用户级摘要,跨会话注入。
- 特点:开箱即用、无需开发;但 LoCoMo 仅 52.9%,时序维度仅 21.7%,明显落后专门记忆系统。
- 适用场景:终端用户级轻量记忆;不适合作为生产 Agent 的长期记忆层。
各家评估底座配置(Eval Stack)
解读 LoCoMo / LongMemEval-S 分数前请先看本表 ------ 不同 "答题模型 / Judge / 抽取 / 嵌入" 组合,差异常常达到 5--10 个百分点。
| 框架 | 答题 / 检索模型(Reader) | 记忆抽取 / 总结模型 | Judge LLM | 嵌入模型 | 备注 / 来源 |
|---|---|---|---|---|---|
| ByteRover 2.1.5 | Gemini 3 Flash | Gemini 3 Flash(curate) | Gemini 3 Flash + Gemini 3.1 Pro(justifier) | 内置 Context Tree,无外部向量库 | ByteRover 2.1.5 Blog |
| ByteRover 2.0 | Gemini 3 Flash | 同上 | 同上 | 同上 | 同上 |
| MemMachine v0.2 | GPT-4o-mini / GPT-4.1-mini(推荐 4.1-mini) | LLM 抽取 + 句级索引 | GPT-4o-mini | OpenAI text-embedding-3-small | MemMachine v0.2 Blog |
| MemMachine(LongMemEval 最优) | GPT-5-mini | GPT-5-mini | GPT-5-mini | text-embedding-3-small(k=100) | MemMachine 论文 |
| Hindsight (arXiv 2512.12818) | Gemini-3 Pro / GPT-OSS-120B / GPT-OSS-20B(不同配置) | GPT-OSS-20B 或 120B 抽取 + 4 路并行检索(语义/关键词/图/时间) | GPT-OSS-120B(temp=0) | 未公开 | Hindsight 论文 (arXiv:2512.12818) |
| Supermemory | GPT-4o / GPT-5 / Gemini-3 Pro(三种配置) | chunk + 关系版本化 + 时间锚定 | GPT-4o(LongMemEval 标配) | 未公开 | Supermemory Research |
| Backboard | 商业 SaaS(未公开) | 未公开 | 未公开 | 未公开 | Hindsight 论文 LoCoMo 表的官方自报参考点 |
| Cognee | 多种(OpenAI / Ollama 本地) | Polystore 抽取 + Memify | LLM-as-judge(HotPotQA) | 多种向量后端 | Cognee 评测博客 |
| Hindsight (ByteRover blog) | Gemini 3 Pro | 4 路并行检索 + 行为推理层 | Gemini 3 Pro | 未公开 | ByteRover 对比 |
| Honcho | Claude Haiku 4.5(dialectic) | Gemini 2.5 Flash Lite(deriver) | GPT-4o | 未公开 | Plastic Labs Benchmarking Honcho |
| Mastra OM | GPT-5-mini(最高分)/ GPT-4o(基线) | "Observer agent" 压缩为 emoji-标注观测 | GPT-4o | 不使用向量/图 DB | Mastra Research |
| OMEGA | Claude(local 工具调用) | 自研存储 lifecycle | LongMemEval 标配 | bge-small-en-v1.5(ONNX,本地) | OMEGA Benchmarks |
| MemPalace v3 | Claude | 自研 + 可选 AAAK 压缩 | LongMemEval 标配 | 未公开 | MemPalace BENCHMARKS.md |
| Zep / Graphiti | GPT-4o-mini(temp=0,复现 Mem0 论文设置) | LLM 抽取构建时序知识图谱 | GPT-4o-mini | OpenAI text-embedding-3-small | Mem0 论文 Sec. 5 |
| Mem0 / Mem0g | GPT-4o-mini(temp=0) | GPT-4o-mini(function calling) | GPT-4o-mini | OpenAI text-embedding-3-small;Mem0g 额外用 Neo4j | Mem0 论文 |
| Memobase | GPT-4o-mini(fork 自 Mem0 评测) | LLM Profile 抽取 | GPT-4o-mini | OpenAI text-embedding-3-small | memobase locomo-benchmark README |
| MemOS | GPT-4o-mini(论文报告) | LLM 抽取 + MemCube | GPT-4o-mini | 未公开 | MemOS arXiv:2507.03724 |
| Letta(MemGPT Filesystem) | GPT-4o-mini(Mem0 复现)/ Letta Leaderboard 多模型 | 文件系统手动管理 | GPT-4o-mini | 取决于配置 | Letta Benchmarking Blog |
| LangMem | GPT-4o-mini | LLM 抽取(向量扫描) | GPT-4o-mini | OpenAI text-embedding-3-small | Mem0 复现博客 |
| OpenAI Memory | GPT-4o-mini(应用侧 ChatGPT 原生记忆) | 黑盒 | GPT-4o-mini | 黑盒 | 同上 |
| Full Context(基线) | GPT-4o-mini,~26K token 直接灌入 | 无 | GPT-4o-mini | 无 | 同上 |
| RAG(基线) | GPT-4o-mini | 无(仅向量检索) | GPT-4o-mini | OpenAI text-embedding-3-small | 同上 |
仅当两套结果至少答题模型与 Judge LLM 一致时,横向对比才相对公平。例如 ByteRover (Gemini 3 Flash) vs MemMachine (GPT-4.1-mini) 的 LoCoMo 总分差异中,包含约 1--3pp 的模型差异成分。
综合排名总结
顶级 (90%+): ByteRover > MemMachine ≈ Mastra > Hindsight (Gemini-3) ≈ Honcho ≈ Backboard*
准顶级 (85-90%): Hindsight (OSS-120B) ≈ Supermemory (Gemini-3 / GPT-5)
中级 (70-85%): Hindsight (OSS-20B) > Supermemory (GPT-4o) > MemOS ≈ Memobase ≈ Zep > Letta Filesystem > Full-Context
基础 (50-70%): Mem0g > Mem0 > RAG > LangMem
落后 (<55%): OpenAI Memory / A-Mem / MemoryBank
(其他:Cognee / Redis Agent Memory Server 缺 LoCoMo/LongMemEval 同口径分,未计入)
* Backboard 90.0% 为商业自报、未独立复现,仅作参考。
⚠️ 公平性说明
- 各团队自报数字,底座模型与 Judge LLM 不同(GPT-4o-mini / GPT-4.1-mini / GPT-5-mini / Gemini 3 Flash / Gemini 3.1 Pro / Claude Haiku 4.5),分数不完全可横向对比。
- Letta/MemGPT 团队曾质疑 Mem0 对 MemGPT 的 LoCoMo 测试结果 ,认为 Mem0 未充分回填历史数据(参见 getzep/zep-papers Issue #5 与 r/LangChain 讨论)。Mem0 团队亦反向纠正了 Zep 早期 84% LoCoMo 自报数字。双方均承认 LoCoMo 复现存在脚本差异。
- MemMachine 论文(arXiv:2604.04853)的官方对比表未包含 ByteRover / Hindsight / Honcho 等更新产品,本文表格中这部分对比来自 ByteRover 自家 v2.1.5 博客。
- OMEGA 95.4% 是在 M1 MacBook 上 ~240 条记忆规模下测得,与 LongMemEval-S 标准设置(每问 ~115K token、40 干扰会话)规模有差异;OMEGA 自评团队也披露在更大规模 MemoryStress 测试中分数会显著下降。
- MemPalace 96.6% 实际是
recall_any@5检索召回率,不是 LongMemEval 标准的 LLM Judge 分数 ------ 指标口径与排行榜其他系统不同,不可直接比较(Penfield Labs / MemPalace 自家 BENCHMARKS.md 均已澄清)。AAAK 模式 84.2% 同样为 R@5。另外,文献中常见的 "top_k=50 大于候选池" 批评,实为针对 MemPalace LoCoMo 60.3% 测试,与 LongMemEval 96.6% 无直接关系,引用时请注意区分。 - LoCoMo benchmark 的总题数为 1,986(含约 446 道 adversarial);行业惯例排名时排除 adversarial 类别后剩约 1,540 题。Snap 官方仓库与 MemMachine、ByteRover 博客均如此处理。
- 多跳、跨会话、时序仍是所有系统共同的薄弱环节,单一基准分数不足以代表生产可用性,应同时关注 token 成本、p95/p99 延迟与可观测性。
参考资料
论文 / 数据集
- MemMachine: A Ground-Truth-Preserving Memory System (arXiv:2604.04853)
- ByteRover: Agent-Native Memory Through LLM-Curated Hierarchical Markdown (arXiv:2604.01599)
- Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (ECAI 2025, arXiv:2504.19413)
- LongMemEval (ICLR 2025, arXiv:2410.10813)
- LoCoMo Dataset (Snap Research) · GitHub: snap-research/locomo
厂商 / 团队博客
- MemMachine v0.2 LoCoMo Blog(2025-12)
- MemMachine 官方 LoCoMo 类别说明(2025-09)
- ByteRover 2.1.5 LongMemEval-S Blog
- Mem0: Benchmarked OpenAI Memory vs LangMem vs MemGPT vs Mem0
- Mem0: State of AI Agent Memory 2026
- Letta: Benchmarking AI Agent Memory
- Zep: State of the Art Agent Memory
- Mastra: Observational Memory Research · Announcement Blog
- VentureBeat: Observational Memory cuts AI agent costs 10x
- OMEGA LongMemEval Leaderboard
- Honcho Benchmarks (plastic-labs/honcho-benchmarks)
- MemPalace BENCHMARKS.md · 独立分析
- Hindsight 论文(arXiv:2512.12818) · GitHub: vectorize-io/hindsight · Hindsight Benchmarks Viewer
- Supermemory Research(LongMemEval SOTA 自评) · Supermemory vs Zep 对比
- Backboard LoCoMo Benchmark(Hindsight 论文 Table 4 引用)
- Cognee Benchmarks · Cognee vs Graphiti/Mem0 评测博客 · GitHub: topoteretes/cognee
- Redis Agent Memory Server · GitHub: redis/agent-memory-server
- Atlan: Best AI Agent Memory Frameworks 2026(独立横评综述)