首页手记 AI突破永久记忆瓶颈，顶级考试99%准确率刷新纪录，业界震撼

AI突破永久记忆瓶颈，顶级考试99%准确率刷新纪录，业界震撼

标签：

深度学习算法人工智能自然语言处理

一个困扰AI数十年的难题，似乎找到了终极答案

当ChatGPT横空出世时，人们惊叹于它的对话能力，却很快发现了一个尴尬的事实——每次开启新对话，它都会"失忆"。你昨天告诉它的名字、偏好、经历，今天全部归零。

这个被称为"AI健忘症"的问题，长期被视为智能体普及的最大障碍之一。

今天，一支名为Supermemory的技术团队宣布，他们可能彻底解决了这个问题。

99%准确率：刷新行业认知的技术突破

在AI记忆领域最具权威的基准测试LongMemEval中，Supermemory推出的ASMR系统（Agentic Search & Memory Retrieval）取得了99%的惊人准确率。

这个数字意味着什么？

全球数十亿智能体均依赖记忆能力，而如今，长期困扰AI的"健忘症"几近被解决。

没错，你听到的就是事实！

ASMR以近乎完美的表现横扫SOTA榜单，迅速登上今日X平台的热门话题。

该系统摒弃了传统的"向量数据库"与嵌入（embedding）模式，完全在内存中运行。

此次ASMR采用"多智能体并行推理"架构，具体分工如下：

3个"观察者智能体"并行读取原始数据，提取包括个人信息、用户偏好、时间线等六大维度的信息；
当用户发起查询时，再调动3个"搜索智能体"进行主动推理与检索。

消息一出，全网被"太疯狂了"的评论刷屏。

尤为值得一提的是，ASMR计划于四月初全面开源其代码，AI记忆的"大航海时代"正式拉开序幕！

技术解析：ASMR如何构建而成？

几个月前，Supermemory发布首份研究报告时，就在LongMemEval-s测试中取得了85%的优异成绩。这一得分在当时已超越所有公开的记忆系统。

而如今，ASMR的诞生再次刷新了行业纪录。

其技术实现极为简洁——无需依赖向量数据库或嵌入技术，完全在内存中直接运行。这意味着它可以轻松集成到其他系统中，甚至嵌入机器人等硬件设备。

为什么传统方案行不通？

LongMemEval是目前公开可用的、最为严苛的长期记忆基准测试之一。多数基准测试仅关注短上下文中的简单检索，而LongMemEval则不同，它旨在模拟真实生产环境中的各种复杂场景：

包括超过11.5万个词元的对话历史、相互矛盾的信息、跨越多个会话的零散事件，以及需要进行时间推理的复杂问题。

大多数记忆系统表现不佳，问题往往出在"检索"环节，而非推理能力。即便召回率很高，若检索过程中伴随大量噪声，大语言模型也难以有效利用这些信息。

首要挑战在于如何仅将正确信息纳入上下文窗口；更棘手的是——如何判断检索到的事实是否已过时，并被更新的版本所取代。

此外，标准的向量搜索在多数场景下表现良好，但在处理信息密度高、跨越多轮会话的时序数据细节时，就显得力不从心。语义相似度匹配难以可靠区分某个事实是"旧信息"还是"新修正"。

为应对LongMemEval的复杂性，团队必须从零开始重新设计信息摄取与检索流程，以主动的智能体推理取代传统的向量数学运算。

因此，他们跳出了传统的RAG框架，构建了一套"多智能体协同编排"的处理管道。

3+3智能体架构：各司其职的精密协作

正如ASMR系统本身，这项技术简洁明了，且极具实用性。

第一阶段：观察者智能体（并行摄取）

首先，部署一个由3个并行读取器——即观察者智能体——组成的智能体编排器。

这些智能体基于Gemini 2.0 Flash驱动，无需对用户对话进行分块或嵌入处理即可执行任务。

它们会并发地阅读原始会话，例如：智能体1负责会话1、3、5；智能体2负责会话2、4、6。

观察者智能体的目标是从"六个维度"进行定向知识提取：个人信息、偏好、事件、时序数据、信息更新、助手信息。

随后，这些结构化的发现会被"原生存储"，并映射回其原始会话来源。

第二阶段：搜索智能体（主动检索）

当接收到问题时，ASMR并不依赖向量数据库进行查询。

系统通过部署三个并行的"搜索Agent"，使这些AI能够主动阅读并推理已存储的发现，每个Agent都有其独特的侧重点：

编排器将汇总所有三个"搜索Agent"的发现，并提取原文会话的逐字片段，以进行细节验证。

这种机制使系统能够基于真实的认知理解进行智能检索，而不仅仅依赖于关键词匹配或数学上的相似度计算。

双重验证：两种答案生成策略

一旦上下文整合完成，单一的提示词往往难以应对LongMemEval中多样化的提问类型。有些问题需要进行细节推断，而另一些则要求给出高度精确的答案。

为此，Supermemory尝试了两种截然不同的AI Agent回答工作流程：

方案一：8变体集群（98.6%准确率）

系统将检索到的上下文路由至并行运行的8个高度专业化的提示词变体。

例如，精准计数器、时间专家、深度上下文分析器等，每个变体都会独立评估上下文并生成答案。

如果这8条不同的推理路径中，有任何一条成功得出正确答案（Ground Truth），该问题即被标记为正确。

这种并行的多重判断方法，使ASMR达到了惊人的98.60%整体准确率，完美覆盖了各类盲区。

方案二：12变体决策森林（97.2%准确率）

为了测试一个旨在输出单一权威答案、但依赖多次独立尝试的系统，团队进一步将ASMR扩展为一个包含12个变体的决策森林。

在这一架构中，12个高度专业化的AI Agent（由GPT-4o-mini驱动）分别独立回答问题。

同时，系统引入了一个"聚合大模型"作为最终裁决者。

聚合器通过多数投票、领域信任度评估以及冲突解决机制，综合这12个答案得出最终结论。

这种基于共识的单一模型，同样取得了高达97.2%的惊人准确率。

需要说明的是，ASMR目前尚未应用于Supermemory的核心生产环境。

本次实验不仅刷新了性能数据，更验证了若干关键观点：

智能体检索优于向量搜索：主动搜索机制有效规避了语义相似度陷阱，解决了时序变化导致的信息失效问题。
并行处理是效率核心：将任务负载分配给多个专用智能体，显著提升了信息提取的速度与精细度。
专业化分工胜过通用模型：专用专家（如细节提取器）的表现明显优于单一的全能提示词。

Supermemory：超越刷榜的完整记忆引擎

但如果你认为ASMR仅仅是一次刷榜实验，那就太小看这个团队的格局了。

ASMR背后，是一套名为Supermemory的完整记忆引擎——一个面向所有AI应用的记忆与上下文基础设施。

你的AI在对话间隙会遗忘一切。Supermemory正是为此而生。

记忆≠RAG：两个本质不同的概念

前面提到的ASMR，解决的是"如何从海量对话中精准定位正确信息"。

但Supermemory要应对的挑战更为宏大：让AI真正具备记忆能力，而不仅仅是检索功能。

关键区别在于：

传统RAG	Supermemory记忆
不具备身份识别能力，所有用户共享同一知识库	主动从对话中提取用户专属事实，追踪信息变化
无法处理内容矛盾，全部信息堆给模型自行判断	识别信息覆盖关系，自动返回最新版本
临时信息永久留存，干扰后续对话	智能遗忘机制，过期信息自动失效