Agent 记忆管理框架基准测试排名

文章目录

数据来源(均为公开可核验):MemMachine 论文(arXiv:2604.04853)、ByteRover 论文(arXiv:2604.01599)与官方博客、Mem0 ECAI 2025 论文(arXiv:2504.19413)、LongMemEval 论文(arXiv:2410.10813)、LoCoMo 数据集(Snap Research)、Letta Blog、Mastra Research、OMEGA Benchmarks、Honcho-benchmarks(plastic-labs/GitHub)、MemPalace BENCHMARKS.md

各分数为各团队在自家配置下自测/公开复现的结果,底座 LLM 与评测脚本不完全一致,请配合下文 "公平性说明" 阅读。

统计截止:2026 年 4 月


主流评测数据集

数据集 特点 题目数 评测维度
LoCoMo Snap Research 提出,10 段超长对话(平均 300 轮 / 9K token / 最多 35 会话)的多轮 QA,目前最主流 1,986(其中 ~1,540 题用于综合排名,排除 adversarial 类别) 单跳 / 多跳 / 时序 / 开放域 / 对抗
LongMemEval-S (ICLR 2025, arXiv:2410.10813) 更难,每条问题对应约 115K token 历史,含噪声会话 500 知识更新 / 单会话 用户/助手/偏好 / 时序 / 跨会话
HotpotQA / WikiMultiHop 多跳推理基准 500(hard 子集)/ 不定 多跳推理
MRCR 多轮共指消解(Google Deepmind / OpenAI 评测中常用) --- 共指消解
EpBench 情节记忆基准 --- 情节记忆

LoCoMo 综合排名(LLM Judge Score)

排名 框架 总分 单跳 多跳 时序 开放域 备注
🥇 1 ByteRover 2.1.5 96.1% 97.5% 93.3% 97.8% 85.9% 商业产品,Gemini 3 Flash
🥈 2 ByteRover 2.0 92.2% 95.4% 85.1% 94.4% 77.2% -
🥉 3 MemMachine v0.2 ~91.7% 94.7% 87.6% 73.5%--91.6%* 70.8% arXiv:2604.04853
4 MemMachine (Retrieval Agent) 90.5% - - - - Agent 模式
5 Backboard 90.0%** 89.4% 75.0% 91.9% 91.2% 商业产品自报;Hindsight 论文 (arXiv:2512.12818) 中作为 LoCoMo 横向对比基线
6 Honcho 89.9% 93.2% 84.0% 88.2% 77.1% plastic-labs
7 Hindsight (Gemini-3) 89.6% 86.2% 70.8% 83.8% 95.1% 开放域最强;arXiv:2512.12818
8 Hindsight (OSS-120B) 85.7% 76.8% 62.5% 79.4% 93.7% 全开源 120B 配置
9 Hindsight (OSS-20B) 83.2% 74.1% 64.6% 76.3% 91.0% 单卡可部署
10 MemOS 75.8% - - - - arXiv:2507.03724
11 Memobase 75.8% 70.9% 46.9% 85.1% 77.2% memodb-io
12 Zep (Graphiti) 75.1% 74.1% 66.0% 79.8% 67.7% 知识图谱架构
13 Letta (MemGPT Filesystem) 74.0% - - - - 简单文件系统方式
14 Full Context(全上下文) 72.9% - - - - ⚠️ 延迟 9.87s,不可用
15 Mem0g(图增强) 68.4% - - - - Mem0 图模式
16 Mem0 66.9% 67.1% 51.2% 55.5% 72.9% 向量模式
17 RAG(基线) 61.0% - - - - 标准检索基线
18 LangMem 58.1% 62.2% 47.9% 23.4% 71.1% LangChain 生态;arXiv:2512.12818 LoCoMo 表
19 OpenAI Memory 52.9% 63.8% 42.9% 21.7% 62.3% ChatGPT 原生记忆
- A-Mem / MemoryBank / ReadAgent < 50% - - - - 学术基线系统

* MemMachine 时序分在 gpt-4.1-mini + Agent 模式下可提升至 91.6%。

** Backboard 90.0% 为其官方 LoCoMo 排行榜自报数字,未经独立复现 ,仅作为 Hindsight 论文 (arXiv:2512.12818) 引用的参考点列出。

中后段 LoCoMo 数字主要来源于 ByteRover 官方对比博客与 Hindsight 论文 (arXiv:2512.12818) 的横向对比表(其引用了 Backboard、Memobase、Zep、Mem0、LangMem、OpenAI Memory 等公开数据),与 Mem0 论文 (arXiv:2504.19413) 的报告一致。


LongMemEval-S 综合排名

排名 框架 总分 知识更新 单会话 时序 跨会话 底座模型
🥇 1 OMEGA 95.4% - - - - bge-small-en-v1.5
🥈 2 Mastra Observational Memory 94.87% - - - - GPT-5-mini
🥉 3 MemMachine(最优配置) 93.0% ~100% ~98% 93.2% 87.2% GPT-5-mini, k=100
4 ByteRover 2.1.5 92.8% 98.7% 96.7--98.6% 91.7% 84.2% Gemini 3 Flash
5 MemMachine(Pareto 最优) 92.2% - - - - GPT-5-mini, k=20
6 Hindsight (arXiv 2512.12818, Gemini-3) 91.4% 89.7% 95.4% 91.0% 87.2% Gemini-3 Pro 仅做答题;记忆+Judge 用 GPT-OSS-120B
7 Honcho 90.4% 94.9% 94.3--96.4% 88.7% 85.0% Claude Haiku 4.5
8 Hindsight (OSS-120B) 89.0% 92.3% 95.6% 85.7% 81.2% 全开源;arXiv:2512.12818
9 Supermemory (Gemini-3 Pro) 85.2% 89.7% 89.0% 82.0% 76.7% Hindsight 论文引用 Supermemory 技术报告
10 Supermemory (GPT-5) 84.6% 87.2% 91.3% 81.2% 75.2% 同上
11 Hindsight (OSS-20B) 83.6% 84.6% 85.7% 79.7% 79.7% 单卡可部署
12 Supermemory (GPT-4o) 81.6% 88.5% 87.8% 76.7% 71.4% 自家技术报告
13 Zep (Graphiti) 71.2% 83.3% 76.7% 62.4% 57.9% Hindsight 论文 LongMemEval 表
14 Full Context (GPT-4o) 60.2% 78.2% 65.3% 45.1% 44.3% 直接灌入 ~115K token
15 MemPalace v3(verbatim 模式,自报) 96.6%* - - - - 见公平性说明(top_k 争议)
16 MemPalace v3(AAAK 压缩模式) 84.2% - - - - 30× 压缩;准确率下降 12.4pp
17 Mastra Observational Memory 84.23% - - - - GPT-4o

* MemPalace 96.6% 数字存在公开质疑:该分数实际是 recall_any@5 检索召回率 ,与 LongMemEval 排行榜其他系统使用的 LLM Judge 分数 口径不同,不可直接横向比较(独立分析见 Reddit r/MachineLearning u/PenfieldLabsmempalace.net/benchmarks)。另一争议(top_k=50 大于候选池 ≤32,相当于退化为全量阅读)实为针对 MemPalace 的 LoCoMo 60.3% 测试,常被混淆。详见 MemPalace 官方基准说明


多跳推理数据集(MemMachine 论文报告)

数据集 MemMachine 基础模式 MemMachine Retrieval Agent LLM 无记忆基线
HotpotQA(hard,500 题) 91.2% accuracy 93.2% -
WikiMultiHop 87.4% 92.6% -
MRCR 79.6% 81.4% 32.3% ⚠️
EpBench 71.4--73.4% 71.8--73.3% -

效率 vs 精度权衡

框架 精度(LoCoMo) 中位延迟 Token 消耗/对话
Full Context 72.9% 9.87s ⚠️ ~26,000
Mem0g 68.4% 1.09s ~1,800
Mem0 66.9% 0.71s ~1,800
MemMachine ~91.7% 较低 比 Mem0 少 ~80% tokens
ByteRover 2.1.5 96.1% p50: 1.6s, p99: 2.5s -

各框架架构特点对比

框架 架构类型 核心优势 主要局限
ByteRover Context Tree(会话级有序存储) 时序推理最强;生产延迟低 商业闭源
MemMachine Ground-truth 保留 + 句级索引 单跳精度极高;token 效率好 开放域较弱
Mastra OM 无向量/图 DB,压缩观测日志 LongMemEval 最高分之一;prompt 缓存友好 不支持开放域检索
Hindsight 4 路并行检索 + 行为推理层 开放域推理(95.1%)最强 -
Honcho 推理型 dialectic agent 跨会话综合推理强 多模型管线复杂
Zep (Graphiti) 时序知识图谱 关系建模 + 时序追踪 部署配置复杂
Mem0 向量 + 可选图数据库 生态最完善,21+ 集成 精度中等;LLM 提取有漂移
MemOS 内存操作系统(MemCube 抽象) 跨类型记忆统一管理 需访问模型内部;可移植性差
Letta (MemGPT) OS 虚拟内存层次 框架灵活;Letta Leaderboard 复杂度高;文件系统方式简单有效
Supermemory 上下文记忆 + 关系版本化 + 时间锚定 + 混合检索 LongMemEval 自报 SOTA;MCP-原生,强适配 Claude Code / OpenCode 多为自家技术报告数字;横向被独立论文测出 81--85% 区间
Backboard 商业托管记忆 API LoCoMo 自报 90.0%(多跳 75.0% / 时序 91.9%) 商业闭源;外部独立复现少
Cognee 向量 + 多图后端(Neo4j/FalkorDB/KuzuDB/NetworkX)+ 关系元数据,Memify 后台增量富集 本地优先、可完全离线(Ollama),6 行代码上手;适合隐私敏感场景 未提供 LoCoMo / LongMemEval-S 同口径分;评测以 HotPotQA 为主
Redis Agent Memory Server Working memory(内存)+ 长期向量(RediSearch VSS)双层 亚毫秒级会话内检索;已有 Redis 团队几乎零额外依赖 提供存储底座,记忆策略(抽取/合并/遗忘)需自行实现

各框架特点详解

以下描述综合各团队论文、官方博客与公开仓库的设计要点;商业闭源系统以其官方公开材料为准。

ByteRover(商业闭源)

  • 核心机制:Agent-Native Memory,使用 LLM-Curated Hierarchical Markdown,将每段会话组织为按时间排序的 "Context Tree",新事实通过 LLM curate 步骤合并入树而非简单覆盖。
  • 检索方式:树状路径检索 + Justifier LLM 二次裁决,无外部向量库,依赖底座(Gemini 3 Flash / Pro)的长上下文能力。
  • 优势:LoCoMo 总分与时序维度长期 SOTA;p50 ≈ 1.6s、p99 ≈ 2.5s,是少数公开 p99 数据的生产级系统。
  • 局限:闭源、不可自部署;对底座要求较高(Gemini 3 系列),换底座后效果未公开复现。
  • 适用场景:愿意接入 SaaS、对时序与多跳精度要求最高的产品化 Agent。

MemMachine(开源)

  • 核心机制:Ground-truth 保留 + 句级倒排索引 + 可选 Retrieval Agent;既保留原文证据,又通过抽取层做检索增强,避免 LLM 摘要漂移。
  • 记忆类型:episodic(情节)+ profile(用户画像)+ working memory,三层组合;提供 Python SDK 与 REST API。
  • 优势:单跳精度极高(94.7%)、token 消耗较 Mem0 少 ~80%;LongMemEval-S 在 GPT-5-mini + k=100 配置下达到 93.0%;开源可自部署。
  • 局限:开放域(open-domain)维度相对较弱(70.8%),需配合 Retrieval Agent 模式弥补。
  • 适用场景:需要可审计 ground-truth、对 token 成本敏感、希望自部署的企业级 Agent。

Mastra Observational Memory

  • 核心机制:完全不使用向量库或图数据库,由 "Observer Agent" 把每轮对话压缩为带 emoji 标注的观测日志,按时间顺序追加;查询时直接把压缩日志拼入 prompt。
  • 优势:实现极简、prompt 缓存命中率高、成本低(官方称比 RAG 便宜 ~10×);LongMemEval-S 在 GPT-5-mini 下达 94.87%。
  • 局限:本质是 "压缩 + 全量阅读",对超大规模历史不可扩展;不支持开放域语义检索;强依赖底座长上下文。
  • 适用场景:单用户、对话长度可控(数十 K token 量级)的助理类应用。

Hindsight

  • 核心机制:4 路并行检索(向量 / 关键词 / 时间 / 行为)+ 行为推理层(Behavioral Reasoning)。
  • 优势:LoCoMo 开放域维度最强(95.1%);对 "用户偏好 / 行为模式" 类问题表现突出。
  • 局限:底座依赖 Gemini 3 Pro,成本较高;行为推理层细节未完全公开。
  • 适用场景:偏好建模、推荐型对话、需要对长期行为做归纳的助理。

Honcho(plastic-labs,开源)

  • 核心机制:Dialectic Agent + Deriver 双模型管线------Deriver(Gemini 2.5 Flash Lite)从历史中派生事实,Dialectic(Claude Haiku 4.5)在查询时做辩证推理。
  • 优势:跨会话综合推理强,LongMemEval-S 跨会话维度 85.0%;开源,社区活跃。
  • 局限:双模型管线复杂、运维与成本均高于单模型方案;延迟波动较大。
  • 适用场景:研究型项目、需要可解释跨会话推理的对话 Agent。

Zep / Graphiti(开源 + 托管)

  • 核心机制:Temporal Knowledge Graph,将事实抽取为带时间戳的 (主体, 关系, 客体) 三元组,支持 "事实在某时刻为真" 的时序查询。
  • 优势:关系建模与时间冲突解决能力强;适合人物 / 项目 / 组织等强结构化领域。
  • 局限:依赖 Neo4j,部署与调参成本高;LoCoMo 总分(75.1%)落后于无图方案,原因之一是图抽取漂移。
  • 适用场景:CRM、HR、法务等需要显式实体关系与时间轴的领域。

Mem0 / Mem0g(开源 + 托管)

  • 核心机制:向量库(Mem0)或向量 + Neo4j 图(Mem0g),LLM function calling 抽取事实为短句记忆,支持 update / delete 自我维护。
  • 优势:生态最完善(21+ 框架集成:LangChain、LlamaIndex、CrewAI 等);延迟极低(中位 0.71s),文档与示例丰富。
  • 局限:LoCoMo 总分仅 66.9%,多跳与时序维度明显落后;LLM 抽取存在事实漂移,长会话下记忆质量退化。
  • 适用场景:原型验证、对精度要求中等但需要快速接入主流 Agent 框架的项目。

MemOS(学术/开源)

  • 核心机制:"内存操作系统" 抽象,引入 MemCube 统一管理 plaintext / activation / parameter 三类记忆,并尝试操作模型内部 KV-cache 与 LoRA 权重。
  • 优势:将参数化记忆纳入统一框架,理论新颖;论文系统性较强(arXiv:2507.03724)。
  • 局限:需访问模型内部状态,对闭源 API(OpenAI/Anthropic)不可移植;LoCoMo 总分 75.8%,未达顶级。
  • 适用场景:自研开源大模型 + 需要权重级长期记忆的研究项目。

Memobase(开源)

  • 核心机制:以 "用户 Profile" 为中心的结构化记忆抽取,把对话归并为可读的字段化档案。
  • 优势:用户画像维度清晰、可读性好;时序分(85.1%)在中档系统里相对突出。
  • 局限:多跳维度仅 46.9%,对复杂事实型 QA 不友好;社区规模较 Mem0 小。
  • 适用场景:客服 / 销售 SDR / 个性化推荐等以用户画像为主的场景。

Letta(前 MemGPT,开源)

  • 核心机制:模仿操作系统的虚拟内存层次:core memory(常驻 prompt)+ archival memory(可分页向量库)+ recall memory(消息历史),由 Agent 自身通过工具调用调度。
  • 优势:框架灵活、自带 Letta Leaderboard 多模型对比;"Filesystem" 简化模式以 74.0% 证明文件系统方式可与复杂方案抗衡。
  • 局限:完整模式实现复杂、对 Agent prompt engineering 要求高;不同模式间分数差异大。
  • 适用场景:研究型 Agent、需要显式控制记忆调度策略的项目。

OMEGA / MemPalace(小众,需注意公平性)

  • OMEGA:本地化(M1 MacBook 上跑),bge-small-en-v1.5 ONNX 嵌入;LongMemEval-S 自评 95.4%,但规模仅 ~240 条记忆,远小于标准 ~115K token / 40 干扰会话设置。
  • MemPalace v3:自报 96.6%(verbatim 模式)因 top_k=50 大于候选池(≤32)被指退化为阅读理解;其 AAAK 压缩模式 84.2% 更具可比性。
  • 适用场景:作为参考实现学习;横向对比时优先采用其压缩 / 标准规模的次高分数。

Supermemory(商业 + 开源 SDK)

  • 核心机制:基于 chunk 的语境化记忆(Contextual Memories)+ 关系版本化(Knowledge Chains)+ 时间锚定 + 混合检索(向量 + 关键词 + 图)+ 会话级别 ingestion;强调对"知识冲突 / 时序更新"的鲁棒性。
  • 优势:MCP-原生、提供 Claude Code / OpenCode / Cursor 等多 IDE 插件;自家 LongMemEval-S 报告 81.6% (GPT-4o) → 84.6% (GPT-5) → 85.2% (Gemini-3 Pro);多次刷新 SOTA 自评。
  • 局限:核心评测主要为自家技术报告数字,独立论文(如 Hindsight arXiv:2512.12818)将其作为基线引用,但同等评测口径下仍被开源 Hindsight (OSS-120B/Gemini-3) 超过。
  • 适用场景:编码 Agent、需要 MCP 接入的桌面助手、希望快速获得"自带 SOTA 自评"的产品化记忆 API。

Backboard(商业闭源)

  • 核心机制:托管型记忆 API;具体抽取 / 检索栈未完整公开,对外暴露统一接口。
  • 优势:LoCoMo 自报 90.0% 总分(单跳 89.4% / 多跳 75.0% / 时序 91.9% / 开放域 91.2%),作为商业产品在 Hindsight 论文 (arXiv:2512.12818) 中被作为对照基线引用。
  • 局限:闭源、无独立第三方复现;论文也明确说明该数字"以官方排行榜的自报值为准"。
  • 适用场景:希望开箱即用、对自部署没有强约束、且能接受闭源 SaaS 的团队。

Cognee(开源)

  • 核心机制:Polystore 设计,统一封装向量库、多种图后端(Neo4j、FalkorDB、KuzuDB、NetworkX)和关系元数据;"Memify Pipeline" 在后台持续做语义关联补全与过期数据清理。
  • 优势:完全可本地化运行(Ollama),适合隐私敏感场景;6 行代码即可启动;提供官方 Benchmark 框架与 DeepEval 集成。
  • 局限 :当前公开评测以 HotPotQA 等多跳 RAG 数据集为主,无 LoCoMo / LongMemEval-S 同口径横评;与 Mem0 / Graphiti 的对比也仅在 24 题子集 + 多次重跑下进行。
  • 适用场景:研究 / 隐私优先的本地部署、希望在多种图后端之间自由切换的开源项目。

Redis Agent Memory Server(开源)

  • 核心机制:将 working memory(亚毫秒会话内 KV)与长期记忆(RediSearch VSS 向量检索)分离,提供 HTTP / SDK 接口。
  • 优势:底层是 20+ 年生产验证的 Redis;与已有 Redis 集群无缝复用,运维成本极低。
  • 局限 :本质是"低延迟存储底座",抽取 / 合并 / 遗忘 / 时序 等记忆策略需自行实现或叠加 Mem0 / MemMachine 等上层框架。
  • 适用场景:已经在用 Redis、对延迟敏感(实时语音 / 游戏 NPC 等)、愿意自行编写记忆策略的团队。

OpenAI Memory(ChatGPT 原生)

  • 核心机制:黑盒;ChatGPT 应用层维护一份用户级摘要,跨会话注入。
  • 特点:开箱即用、无需开发;但 LoCoMo 仅 52.9%,时序维度仅 21.7%,明显落后专门记忆系统。
  • 适用场景:终端用户级轻量记忆;不适合作为生产 Agent 的长期记忆层。

各家评估底座配置(Eval Stack)

解读 LoCoMo / LongMemEval-S 分数前请先看本表 ------ 不同 "答题模型 / Judge / 抽取 / 嵌入" 组合,差异常常达到 5--10 个百分点。

框架 答题 / 检索模型(Reader) 记忆抽取 / 总结模型 Judge LLM 嵌入模型 备注 / 来源
ByteRover 2.1.5 Gemini 3 Flash Gemini 3 Flash(curate) Gemini 3 Flash + Gemini 3.1 Pro(justifier) 内置 Context Tree,无外部向量库 ByteRover 2.1.5 Blog
ByteRover 2.0 Gemini 3 Flash 同上 同上 同上 同上
MemMachine v0.2 GPT-4o-mini / GPT-4.1-mini(推荐 4.1-mini) LLM 抽取 + 句级索引 GPT-4o-mini OpenAI text-embedding-3-small MemMachine v0.2 Blog
MemMachine(LongMemEval 最优) GPT-5-mini GPT-5-mini GPT-5-mini text-embedding-3-small(k=100) MemMachine 论文
Hindsight (arXiv 2512.12818) Gemini-3 Pro / GPT-OSS-120B / GPT-OSS-20B(不同配置) GPT-OSS-20B 或 120B 抽取 + 4 路并行检索(语义/关键词/图/时间) GPT-OSS-120B(temp=0) 未公开 Hindsight 论文 (arXiv:2512.12818)
Supermemory GPT-4o / GPT-5 / Gemini-3 Pro(三种配置) chunk + 关系版本化 + 时间锚定 GPT-4o(LongMemEval 标配) 未公开 Supermemory Research
Backboard 商业 SaaS(未公开) 未公开 未公开 未公开 Hindsight 论文 LoCoMo 表的官方自报参考点
Cognee 多种(OpenAI / Ollama 本地) Polystore 抽取 + Memify LLM-as-judge(HotPotQA) 多种向量后端 Cognee 评测博客
Hindsight (ByteRover blog) Gemini 3 Pro 4 路并行检索 + 行为推理层 Gemini 3 Pro 未公开 ByteRover 对比
Honcho Claude Haiku 4.5(dialectic) Gemini 2.5 Flash Lite(deriver) GPT-4o 未公开 Plastic Labs Benchmarking Honcho
Mastra OM GPT-5-mini(最高分)/ GPT-4o(基线) "Observer agent" 压缩为 emoji-标注观测 GPT-4o 不使用向量/图 DB Mastra Research
OMEGA Claude(local 工具调用) 自研存储 lifecycle LongMemEval 标配 bge-small-en-v1.5(ONNX,本地) OMEGA Benchmarks
MemPalace v3 Claude 自研 + 可选 AAAK 压缩 LongMemEval 标配 未公开 MemPalace BENCHMARKS.md
Zep / Graphiti GPT-4o-mini(temp=0,复现 Mem0 论文设置) LLM 抽取构建时序知识图谱 GPT-4o-mini OpenAI text-embedding-3-small Mem0 论文 Sec. 5
Mem0 / Mem0g GPT-4o-mini(temp=0) GPT-4o-mini(function calling) GPT-4o-mini OpenAI text-embedding-3-small;Mem0g 额外用 Neo4j Mem0 论文
Memobase GPT-4o-mini(fork 自 Mem0 评测) LLM Profile 抽取 GPT-4o-mini OpenAI text-embedding-3-small memobase locomo-benchmark README
MemOS GPT-4o-mini(论文报告) LLM 抽取 + MemCube GPT-4o-mini 未公开 MemOS arXiv:2507.03724
Letta(MemGPT Filesystem) GPT-4o-mini(Mem0 复现)/ Letta Leaderboard 多模型 文件系统手动管理 GPT-4o-mini 取决于配置 Letta Benchmarking Blog
LangMem GPT-4o-mini LLM 抽取(向量扫描) GPT-4o-mini OpenAI text-embedding-3-small Mem0 复现博客
OpenAI Memory GPT-4o-mini(应用侧 ChatGPT 原生记忆) 黑盒 GPT-4o-mini 黑盒 同上
Full Context(基线) GPT-4o-mini,~26K token 直接灌入 GPT-4o-mini 同上
RAG(基线) GPT-4o-mini 无(仅向量检索) GPT-4o-mini OpenAI text-embedding-3-small 同上

仅当两套结果至少答题模型与 Judge LLM 一致时,横向对比才相对公平。例如 ByteRover (Gemini 3 Flash) vs MemMachine (GPT-4.1-mini) 的 LoCoMo 总分差异中,包含约 1--3pp 的模型差异成分。


综合排名总结

复制代码
顶级 (90%+):   ByteRover > MemMachine ≈ Mastra > Hindsight (Gemini-3) ≈ Honcho ≈ Backboard*
准顶级 (85-90%): Hindsight (OSS-120B) ≈ Supermemory (Gemini-3 / GPT-5)
中级 (70-85%): Hindsight (OSS-20B) > Supermemory (GPT-4o) > MemOS ≈ Memobase ≈ Zep > Letta Filesystem > Full-Context
基础 (50-70%): Mem0g > Mem0 > RAG > LangMem
落后 (<55%):   OpenAI Memory / A-Mem / MemoryBank
(其他:Cognee / Redis Agent Memory Server 缺 LoCoMo/LongMemEval 同口径分,未计入)

* Backboard 90.0% 为商业自报、未独立复现,仅作参考。


⚠️ 公平性说明

  1. 各团队自报数字,底座模型与 Judge LLM 不同(GPT-4o-mini / GPT-4.1-mini / GPT-5-mini / Gemini 3 Flash / Gemini 3.1 Pro / Claude Haiku 4.5),分数不完全可横向对比。
  2. Letta/MemGPT 团队曾质疑 Mem0 对 MemGPT 的 LoCoMo 测试结果 ,认为 Mem0 未充分回填历史数据(参见 getzep/zep-papers Issue #5r/LangChain 讨论)。Mem0 团队亦反向纠正了 Zep 早期 84% LoCoMo 自报数字。双方均承认 LoCoMo 复现存在脚本差异
  3. MemMachine 论文(arXiv:2604.04853)的官方对比表未包含 ByteRover / Hindsight / Honcho 等更新产品,本文表格中这部分对比来自 ByteRover 自家 v2.1.5 博客。
  4. OMEGA 95.4% 是在 M1 MacBook 上 ~240 条记忆规模下测得,与 LongMemEval-S 标准设置(每问 ~115K token、40 干扰会话)规模有差异;OMEGA 自评团队也披露在更大规模 MemoryStress 测试中分数会显著下降。
  5. MemPalace 96.6% 实际是 recall_any@5 检索召回率,不是 LongMemEval 标准的 LLM Judge 分数 ------ 指标口径与排行榜其他系统不同,不可直接比较(Penfield Labs / MemPalace 自家 BENCHMARKS.md 均已澄清)。AAAK 模式 84.2% 同样为 R@5。另外,文献中常见的 "top_k=50 大于候选池" 批评,实为针对 MemPalace LoCoMo 60.3% 测试,与 LongMemEval 96.6% 无直接关系,引用时请注意区分。
  6. LoCoMo benchmark 的总题数为 1,986(含约 446 道 adversarial);行业惯例排名时排除 adversarial 类别后剩约 1,540 题。Snap 官方仓库与 MemMachine、ByteRover 博客均如此处理。
  7. 多跳、跨会话、时序仍是所有系统共同的薄弱环节,单一基准分数不足以代表生产可用性,应同时关注 token 成本、p95/p99 延迟与可观测性。

参考资料

论文 / 数据集

厂商 / 团队博客

复现/争议讨论

相关推荐
极智视界1 小时前
分类数据集 - 伪造人脸和真实人脸分类数据集下载
人工智能·yolo·数据集·图像分类·算法训练·人脸伪造检测
千寻girling1 小时前
滑动窗口刷了快一个月(26天)了 , 还没有刷完. | 含(操作系统学什么的Java 后端)
java·开发语言·javascript·c++·人工智能·后端·python
jiayong231 小时前
国内外视频/图像大模型与智能体工具平台竞品对比
ai·音视频·agent
GEO索引未来1 小时前
国内首部GEO可信传播标准立项通过/DeepSeek-V4 正式上线并开源/Open AI、Google继续推进AI广告标准化
大数据·人工智能·gpt·ai·chatgpt·开源
Chengbei111 小时前
面向红队的 AI 赋能全场景流量分析仪 网页 / APP / 终端 / IoT 全域 HTTPS 抓包解密利器
人工智能·物联网·网络协议·web安全·网络安全·https·系统安全
小糖学代码1 小时前
LLM系列:2.pytorch入门:9.神经网络的学习
人工智能·python·深度学习·神经网络·学习·机器学习
tangweiguo030519871 小时前
AI图生图完整实战:基于阿里云百炼通义万相
人工智能·langchain
一只AI打工虾的自我修养1 小时前
Mac mini 本地AI工作站配置指南(2026实战):从零打造 M4 Mac mini AI 开发环境
人工智能·macos
CodePlayer竟然被占用了1 小时前
少即是多:GPT-5.5 Prompt 官方指南的核心转变
人工智能