一个困扰AI数十年的难题,似乎找到了终极答案
当ChatGPT横空出世时,人们惊叹于它的对话能力,却很快发现了一个尴尬的事实——每次开启新对话,它都会"失忆"。你昨天告诉它的名字、偏好、经历,今天全部归零。
这个被称为"AI健忘症"的问题,长期被视为智能体普及的最大障碍之一。
今天,一支名为Supermemory的技术团队宣布,他们可能彻底解决了这个问题。
99%准确率:刷新行业认知的技术突破在AI记忆领域最具权威的基准测试LongMemEval中,Supermemory推出的ASMR系统(Agentic Search & Memory Retrieval)取得了99%的惊人准确率。
这个数字意味着什么?
全球数十亿智能体均依赖记忆能力,而如今,长期困扰AI的"健忘症"几近被解决。
没错,你听到的就是事实!
ASMR以近乎完美的表现横扫SOTA榜单,迅速登上今日X平台的热门话题。
该系统摒弃了传统的"向量数据库"与嵌入(embedding)模式,完全在内存中运行。
此次ASMR采用"多智能体并行推理"架构,具体分工如下:
- 3个"观察者智能体"并行读取原始数据,提取包括个人信息、用户偏好、时间线等六大维度的信息;
- 当用户发起查询时,再调动3个"搜索智能体"进行主动推理与检索。
消息一出,全网被"太疯狂了"的评论刷屏。
尤为值得一提的是,ASMR计划于四月初全面开源其代码,AI记忆的"大航海时代"正式拉开序幕!
技术解析:ASMR如何构建而成?几个月前,Supermemory发布首份研究报告时,就在LongMemEval-s测试中取得了85%的优异成绩。这一得分在当时已超越所有公开的记忆系统。
而如今,ASMR的诞生再次刷新了行业纪录。
其技术实现极为简洁——无需依赖向量数据库或嵌入技术,完全在内存中直接运行。这意味着它可以轻松集成到其他系统中,甚至嵌入机器人等硬件设备。
为什么传统方案行不通?
LongMemEval是目前公开可用的、最为严苛的长期记忆基准测试之一。多数基准测试仅关注短上下文中的简单检索,而LongMemEval则不同,它旨在模拟真实生产环境中的各种复杂场景:
包括超过11.5万个词元的对话历史、相互矛盾的信息、跨越多个会话的零散事件,以及需要进行时间推理的复杂问题。
大多数记忆系统表现不佳,问题往往出在"检索"环节,而非推理能力。即便召回率很高,若检索过程中伴随大量噪声,大语言模型也难以有效利用这些信息。
首要挑战在于如何仅将正确信息纳入上下文窗口;更棘手的是——如何判断检索到的事实是否已过时,并被更新的版本所取代。
此外,标准的向量搜索在多数场景下表现良好,但在处理信息密度高、跨越多轮会话的时序数据细节时,就显得力不从心。语义相似度匹配难以可靠区分某个事实是"旧信息"还是"新修正"。
为应对LongMemEval的复杂性,团队必须从零开始重新设计信息摄取与检索流程,以主动的智能体推理取代传统的向量数学运算。
因此,他们跳出了传统的RAG框架,构建了一套"多智能体协同编排"的处理管道。
3+3智能体架构:各司其职的精密协作正如ASMR系统本身,这项技术简洁明了,且极具实用性。
第一阶段:观察者智能体(并行摄取)
首先,部署一个由3个并行读取器——即观察者智能体——组成的智能体编排器。
这些智能体基于Gemini 2.0 Flash驱动,无需对用户对话进行分块或嵌入处理即可执行任务。
它们会并发地阅读原始会话,例如:智能体1负责会话1、3、5;智能体2负责会话2、4、6。
观察者智能体的目标是从"六个维度"进行定向知识提取:个人信息、偏好、事件、时序数据、信息更新、助手信息。
随后,这些结构化的发现会被"原生存储",并映射回其原始会话来源。
第二阶段:搜索智能体(主动检索)
当接收到问题时,ASMR并不依赖向量数据库进行查询。
系统通过部署三个并行的"搜索Agent",使这些AI能够主动阅读并推理已存储的发现,每个Agent都有其独特的侧重点:
编排器将汇总所有三个"搜索Agent"的发现,并提取原文会话的逐字片段,以进行细节验证。
这种机制使系统能够基于真实的认知理解进行智能检索,而不仅仅依赖于关键词匹配或数学上的相似度计算。
双重验证:两种答案生成策略一旦上下文整合完成,单一的提示词往往难以应对LongMemEval中多样化的提问类型。有些问题需要进行细节推断,而另一些则要求给出高度精确的答案。
为此,Supermemory尝试了两种截然不同的AI Agent回答工作流程:
方案一:8变体集群(98.6%准确率)
系统将检索到的上下文路由至并行运行的8个高度专业化的提示词变体。
例如,精准计数器、时间专家、深度上下文分析器等,每个变体都会独立评估上下文并生成答案。
如果这8条不同的推理路径中,有任何一条成功得出正确答案(Ground Truth),该问题即被标记为正确。
这种并行的多重判断方法,使ASMR达到了惊人的98.60%整体准确率,完美覆盖了各类盲区。
方案二:12变体决策森林(97.2%准确率)
为了测试一个旨在输出单一权威答案、但依赖多次独立尝试的系统,团队进一步将ASMR扩展为一个包含12个变体的决策森林。
在这一架构中,12个高度专业化的AI Agent(由GPT-4o-mini驱动)分别独立回答问题。
同时,系统引入了一个"聚合大模型"作为最终裁决者。
聚合器通过多数投票、领域信任度评估以及冲突解决机制,综合这12个答案得出最终结论。
这种基于共识的单一模型,同样取得了高达97.2%的惊人准确率。
需要说明的是,ASMR目前尚未应用于Supermemory的核心生产环境。
本次实验不仅刷新了性能数据,更验证了若干关键观点:
- 智能体检索优于向量搜索:主动搜索机制有效规避了语义相似度陷阱,解决了时序变化导致的信息失效问题。
- 并行处理是效率核心:将任务负载分配给多个专用智能体,显著提升了信息提取的速度与精细度。
- 专业化分工胜过通用模型:专用专家(如细节提取器)的表现明显优于单一的全能提示词。
但如果你认为ASMR仅仅是一次刷榜实验,那就太小看这个团队的格局了。
ASMR背后,是一套名为Supermemory的完整记忆引擎——一个面向所有AI应用的记忆与上下文基础设施。
你的AI在对话间隙会遗忘一切。Supermemory正是为此而生。
记忆≠RAG:两个本质不同的概念
前面提到的ASMR,解决的是"如何从海量对话中精准定位正确信息"。
但Supermemory要应对的挑战更为宏大:让AI真正具备记忆能力,而不仅仅是检索功能。
关键区别在于:
| 传统RAG | Supermemory记忆 |
|---|---|
| 不具备身份识别能力,所有用户共享同一知识库 | 主动从对话中提取用户专属事实,追踪信息变化 |
| 无法处理内容矛盾,全部信息堆给模型自行判断 | 识别信息覆盖关系,自动返回最新版本 |
| 临时信息永久留存,干扰后续对话 | 智能遗忘机制,过期信息自动失效 |
典型案例:如果你上个月对AI说"我住在北京",这个月又说"我刚搬到上海"。RAG会将两条信息都传递给大模型,让其自行猜测。而Supermemory能够识别后者覆盖了前者,仅返回"上海"这一最新信息。
更令人印象深刻的是其"自动遗忘"机制。当你提到"我明天有个考试",等到日期过后,这条记忆会自动失效。临时性信息不会转化为永久性干扰。
Supermemory默认将RAG和记忆功能整合在单次查询中运行,知识库检索与个性化上下文可一次性获取。
50毫秒构建用户画像
除了记忆功能,Supermemory还将用户画像管理全面接管。
在传统方案中,若要让AI"认识"一个用户,需要自行搭建用户画像系统,手动维护标签、偏好和历史行为记录。Supermemory将这一过程完全自动化。
它将用户信息划分为两个层次:
- 静态事实(如"资深工程师""使用Vim编辑器""偏好暗色模式")
- 动态上下文(如"正在进行认证模块迁移""正在调试限流问题")
通过约50毫秒延迟的一次API调用,你的智能体就能清晰了解对话对象的身份特征。
将这一画像注入系统提示词后,智能体便能瞬间从"陌生人模式"切换至"老友模式"。
"全家桶式"的连接能力
仅凭对话内容构建记忆是远远不够的,Supermemory进一步整合了全方位的外部数据源。
它通过实时Webhook自动同步Google Drive、Gmail、Notion、OneDrive、GitHub等主流平台数据。
上传文档后系统自动进行内容提取,支持PDF解析、图片OCR识别、视频语音转录、代码的AST级别分块处理。上传即可检索,无需任何额外配置。
对于开发者而言,集成成本被压缩至极限。
只需通过npm安装一个包,几行代码即可为你的智能体赋予完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra等主流AI开发框架均已提供现成封装。
系统内置Claude Code、OpenCode、OpenClaw等插件。即使不编写代码也能轻松使用。
Supermemory提供MCP服务器,一行命令完成安装,即可在Claude Desktop、Cursor、Windsurf、VS Code等开发环境中直接调用。
结语:记忆这场仗,才刚刚开始从技术探索到产品落地,Supermemory团队所实现的,本质上是将AI的"工作记忆"从一个附加功能,升级为一层基础设施。
过去几年,大模型的竞争焦点始终围绕参数规模、推理速度、上下文窗口长度展开。
然而,即便拥有128K的超长上下文窗口,一旦对话结束,记忆便随之清空,下次交互仍如同初见。
记忆能力,正是让AI从"工具"蜕变为"搭档"的关键拼图。
当每一个智能体都能记住你的身份、当前任务、以及上次对话的进度,人机交互的体验将迎来一次静默而深刻的质变。
这并不是因为AI变得更聪明,而是它终于不再遗忘。
共同学习,写下你的评论
评论加载中...
作者其他优质文章