MemEye评测框架:助力多模态长期记忆系统精准诊断与改进
AI Agent多模态长期记忆现状与问题
过去一年,AI Agent的想象空间不断被拉大,它们能帮人们整理资料、写代码、浏览网页、操作电脑,还能接收图片、截图、照片、视频帧等视觉信息。然而,一个问题随之而来:如果Agent今天看过房间布局、健康仪表盘、牌局截图、商品Logo、路线照片,明天还能不能记得?这个看似简单的问题,在多模态长期记忆里并不容易解决,因为“看过”不等于“记住”,“记住”也不等于“以后能用得上”。
现有多模态记忆系统的问题
很多系统看似拥有多模态记忆,实际是把图片先转成一段文字描述(caption),再当成普通文本存进记忆库。这种做法高效且便宜,但图片一旦被压缩成文字,很多细节就无法恢复。
MemEye评测框架介绍
MemEye是一个面向多模态Agent长期记忆的视觉中心评测框架。它关注的不是“模型能不能看懂一张图”,而是当视觉信息分散在很长的多轮对话和多次session里,Agent能否保留关键视觉证据,并在状态不断变化时选出当前真正有效的信息。这也是MemEye和很多已有benchmark的区别,它专门测试那些不能只靠文字、caption、语义检索蒙混过关的视觉记忆问题。
为何需要新的评测
在不少多模态记忆任务中,问题虽带有图片,但答案可能已被对话文本、选项暗示,或粗略caption泄漏。例如,问题是“用户上次上传的是厨房照片还是卧室照片”,caption写“这是一张厨房照片”即可,模型无需真正保留图片。但真实场景更复杂,如“上次地板旁边三个材料样本里,哪一个和后来放到柜门边的是同一个”等问题,需要更细的视觉证据,普通caption很难保存所有可能被问到的细节。所以,如果一个benchmark可以被caption轻松绕过,就很难证明Agent真的有visual memory。
MemEye的设计
MemEye最重要的设计是一个二维坐标系,将“视觉记忆为什么难”拆成两个方向。X轴表示视觉证据的细度,包括场景级(模型只需知道大概场景)、区域级(关注画面中的局部区域)、实例级(在多个相似对象中认出具体是哪一个)、像素级(读出更细的视觉信息);Y轴表示记忆的推理方式,包括原子检索(找到一条相关证据基本就能回答)、关系关联(把多条不冲突的线索串起来)、演化综合(最难,后面的视觉证据会更新、覆盖或推翻前面的证据,模型要判断哪个状态现在仍然有效)。这里关键的区别是,相关证据不一定是有效证据,旧截图可能相关但已过期。
MemEye数据集
在该框架下,MemEye构建了一个覆盖真实生活场景的benchmark,包含371个问题、221个sessions、848轮dialogue rounds、438张图片,每个问题有选择题和开放回答两种形式。任务覆盖8个生活场景,分布在休闲、家庭、职业、个人四类场景中。为避免“假视觉问题”,MemEye设计了多层过滤机制,如只给文字和选项,若模型能答对,说明题目可能泄漏答案;把图片替换成极简caption,若模型还能答对,说明原始图片不是必需;给模型正确图片和正确线索,若答不出,说明题目可能本身不清楚。这些过滤让MemEye更像一次视觉记忆体检,确保留下来的问题确实需要模型保留并使用图像里的关键证据。
实验情况
MemEye评估了13种记忆方法,大致分为两类。第一类是文本记忆,把图片转换成dense caption,再用文本系统做相关操作,擅长整理文字状态,但易丢视觉细节;第二类是多模态记忆,保留原始视觉输入或用图像embedding做检索,更能保存细节,但在历史长、相似图片多时,可能找到“相关图”却没找到“最新有效图”。实验覆盖的VLM backbones包括Qwen3 - VL - 8B - Instruct、GPT - 4.1 - nano、GPT - 5.4 - mini和Gemini - 2.5 - flash - lite。选择题用EM,开放回答主要用LLM - as - a - Judge。
研究结果
1. caption在粗粒度问题上有竞争力,但在实例级和像素级问题上,因答案可能藏在具体对象的身份、小标签等细节里,caption容易省略这些信息,存在压缩损失。所以,如果任务需要高精度视觉证据,不能过早把图片压缩成不可恢复的文字。
2. 保留原图对高X轴问题有帮助,但在“状态会变化”的任务里,系统还需知道哪张图代表当前状态。例如房间标签更换,检索系统可能找出相关但过期的图片,说明语义相关性不等于时间有效性,只找相似内容的memory system易被旧证据误导。
3. 当前系统不是“不会记”,而是常卡在不同环节。有的系统能组织状态变化但丢了细节视觉信息,有的保留了原图但检索到过期图片,有的找到相关证据却不会判断有效性,有的会被无关内容干扰。未来的多模态长期记忆系统可能需结合图像记忆(保留细粒度视觉证据)、文本/结构化记忆(记录状态变化等关系)、时间有效性选择(在长历史中选出当前真正有效的证据)。
MemEye的意义
很多benchmark最后会变成总分排行榜,但对Agent memory来说,总分不够,因为两个系统总分接近但失败原因可能不同。MemEye更像一个诊断工具,将视觉证据粒度和记忆推理深度拆开,让我们看清系统是丢了视觉细节、找错了证据,还是不会处理状态更新。这对未来的多模态Agent很重要,真实世界里的Agent会面对不断变化的场景,如果不能分清“以前看过什么”和“现在什么仍然有效”,就很难成为可靠的长期助手。
结语
MemEye提醒我们,多模态长期记忆不是简单地“存更多历史”或把图片变成caption后丢进向量库。真正可靠的visual memory要同时做到保留足够细的视觉证据、在长历史中找回正确线索、在状态变化后选出当前有效的信息。MemEye给出了一个清晰的评测起点,让我们不仅看模型有没有答对,更要看它为什么答错,以及下一代多模态记忆系统应该往哪里改。
