微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡国立大学研究团队：把一整段文字或图片压缩成"一个点"，AI问答效率提升10倍！

人工智能多模态问答高效压缩

新加坡国立大学研究团队：把一整段文字或图片压缩成"一个点"，AI问答效率提升10倍！

作者：科技行者

2026-06-17 09:05

分享至：

新加坡国立大学提出潜在记忆方案，将文字和图片各压缩为单个数字符号，让AI问答计算成本降低3至10倍，图片问答性能超越现有最强方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-17 09:05 • 科技行者

这项由新加坡国立大学计算学院研究团队完成的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.10572，完整论文可通过该编号查阅。

当你在手机里保存几百张照片，然后想找其中某一张时，手机要把这几百张图片的缩略图全部加载出来，才能帮你找到想要的那张。现在的AI助手在回答问题时，面临的是同样的困境——只不过它搜索的不是照片，而是大量的文字或图片资料。而且更麻烦的是，AI不仅要找到相关资料，还要把整段文字、整张图片都"读"进去，才能给出答案。这个过程既耗时又耗资源，在手机、智能手表等计算能力有限的设备上根本无法运行。

新加坡国立大学的研究团队提出了一个极具创意的解决方案，他们称之为"潜在记忆"（Latent Memory）。简单来说，他们的做法是把每一条知识片段——无论是一段文字还是一张图片——压缩成一个极其微小的"记忆胶囊"，然后让AI直接用这些胶囊来回答问题，完全不需要再翻出原始的文字或图片。这一做法让AI在处理多媒体知识问答时，所需消耗的计算资源降低了3到10倍，同时回答准确度依然保持在很高水平，在图片类问答上甚至超过了目前最强的对比方案。

---

一、AI助手为什么会"翻箱倒柜"？

以一个日常场景来理解这个问题：假设你是一位助理，老板让你回答"安妮·莫顿和特里·理查森谁更年长"这个问题。你的桌上有几百份文件和几十张照片，里面藏着答案。你不可能把所有文件都通读一遍，所以你先快速扫描标签，找到最相关的两三份，然后仔细阅读这些文件，最后给出答案。

现在的AI助手（也就是大型语言模型，可以理解为超级聪明的文字处理机器）做的事情和这位助理一模一样。它依赖一套叫做"检索增强生成"（RAG）的系统：先从大量资料中检索出最相关的几条，再把这些资料完整地输入给AI，让AI读完后作答。这套系统的麻烦在于，每次输入给AI的原始文字或图片内容量非常庞大。

在处理文字时，每条资料可能包含几十个甚至上百个词语，AI需要把这些词一个一个地处理。而在处理图片时，情况更糟糕——现有的视觉AI系统（比如LLaVA或Gemma这类模型）在处理一张普通图片时，会把图片拆解成256到576个"视觉符号"来理解，相当于把一张照片变成了一篇几百字的文章。当你需要同时参考好几张图片来回答问题时，AI需要一次性处理的内容可能多达几千个符号，这对设备的计算能力和内存要求极高。

在边缘设备（比如手机、智能手表、物联网设备）上，这种"大进大出"的处理方式根本无法承受。新加坡国立大学的研究团队正是从这个实际痛点出发，开始探索一种全新的知识存储和调取方式。

---

二、把知识压成"一粒种子"：潜在记忆的核心思路

这个研究团队的核心想法，可以用"晶体存档"这个比喻来理解。一颗小小的水晶，看起来只是一个闪光的固体，但科幻故事里它却能存储整个文明的记忆。潜在记忆做的事情与此类似——把一段文字或一张图片，通过一个专门训练的"压缩器"AI，凝结成一个高维度的数字向量，也就是一串代表知识精华的数字。研究团队把这个凝结后的东西叫做"潜在记忆符号"，每一条知识只对应一个这样的符号。

这里需要理解"高维度向量"是什么概念。普通的温度计只有一个维度——高或低。GPS坐标有两个维度——经度和纬度。而潜在记忆符号有2048个或4096个维度，每个维度都编码了原始知识的某一个侧面。这就好比一个超级精密的DNA片段，它的每一个碱基对都承载着关于原始资料的某种信息。

整套系统的工作流程可以分为三个阶段。第一阶段是"建档"：用一个小型压缩器AI把每条知识（文字或图片）处理一遍，产生对应的潜在记忆符号，然后把原始文字和图片丢掉，只保留这些符号。第二阶段是"检索"：当用户提出问题时，把这个问题也同样压缩成一个向量，然后在所有潜在记忆符号中找出最相似的几个，这就是"最相关的知识"。第三阶段是"作答"：把找到的潜在记忆符号直接投影到大型AI的输入空间，让大型AI读取这些"知识胶囊"来生成答案，全程不需要展开任何原始文字或图片。

相比之下，传统做法是把原始文字和图片塞进AI，现在换成了只塞几个胶囊，而每个胶囊代表一整条知识。这就是为什么计算量能降低那么多的根本原因。

---

三、怎么让"一粒种子"包含足够多的信息？

一个自然而然的疑问是：把一整段文字压缩成一个数字符号，信息不会丢失吗？答案是会有损失，但研究团队设计了一套精心的训练方案，让这个损失尽量小，并且让保留下来的信息恰好是对检索和作答最有用的那部分。

训练这个压缩器AI的方法，可以用培训一位专业速记员来类比。这位速记员需要同时满足三个要求：第一，他的速记笔记必须足够完整，事后能基本还原出原文；第二，他在记笔记时，必须用一种特别的方式，让相关主题的笔记在某种意义上"距离更近"，不相关的"距离更远"，方便之后快速查找；第三，他的笔记交给老板（也就是大型AI）看时，老板能根据笔记给出和看原文一样准确的答案。

对应到技术上，研究团队设计了三种训练信号。其一是"重建损失"——让压缩器产生的符号通过一个小型解码器，尝试还原出原始文字（或原始图片的特征），并通过比较还原质量来优化压缩器，确保知识精华没有大量流失。对于图片，团队采用了一种更聪明的做法：不直接重建像素，而是重建图片的"CLIP特征"（可以理解为图片内容的高度概括），然后通过扩散模型把这个特征再变回图片，这样存储成本大幅降低的同时语义信息得以保留。其二是"对比损失"——让问题对应的向量在数字空间里靠近正确答案对应的知识符号，远离不相关的知识符号，就像在一个超高维度的地图上把相关内容聚集到一起。其三是"蒸馏损失"——让大型AI读取潜在记忆符号时产生的回答，尽量接近它读取原始文字和图片时的回答，保证信息传递的忠实度。这三种损失信号被同时优化，合力让压缩器产生出同时擅长被检索、被还原、被大型AI理解的知识胶囊。

值得注意的是，在整个训练过程中，大型AI的参数始终保持冻结（不做任何修改），只调整小型压缩器的参数以及几个连接用的映射层。这样做的好处是避免了"灾难性遗忘"——大型AI不会因为适应新格式而忘记原本学到的能力，并且任何已有的大型AI都可以被配合使用，无需重头训练。

---

四、从文字到图片，一套系统全部搞定

潜在记忆最独特的地方在于，它同时处理文字和图片，并且把它们统一到同一个数字空间里。这就意味着，当你问一个涉及图片的问题时，系统能同时在文字知识和图片知识里搜索，找到最相关的内容，而不需要分别维护两套系统。

回到之前的速记员比喻：如果速记员不仅能速记文字资料，还能用同样的符号系统速记照片内容，那么老板在找资料时，不需要区分"查文字档案"还是"查图片档案"，直接在统一的系统里搜就行。

这一特性在实际测试中表现出了明显优势。在涉及真实图片内容的问题上，潜在记忆系统的表现尤其突出。研究团队在WebQA这个知名的多模态问答数据集上进行了测试，这个数据集要求系统从混合了文字和图片的知识库中找到答案。在图片类问题上，潜在记忆系统的F1分数（一种衡量答案质量的指标）在检索5条资料时达到了69.4，而当时表现最好的原始图片检索方案（Nemo-Emb）只有53.0，但后者消耗的计算符号数量是前者的二十多倍。

这个差距背后有一个有趣的原因：传统方案在同时输入多张图片时，很容易超出大型AI能处理的上下文长度上限，导致AI"读不完"所有内容，只能产出低质量的回答，甚至产出空白或乱码。而潜在记忆系统的每条知识只占一个符号的空间，无论有多少条知识被检索出来，都不会超出限制。

---

五、数字说话：效率和准确度的真实对比

研究团队在七个纯文字问答数据集和多个多模态问答数据集上进行了系统评估，并与多种主流方案进行了详细对比。以下是这些对比中体现出来的核心规律。

在纯文字问答场景下，使用一个1亿参数的小型压缩器（LLaMA-3.2-1B）和一个80亿参数的大型生成器（Meta-Llama-3-8B），潜在记忆在检索5条资料的情况下，每次问答平均只需要71个输入符号，而BM25（一种经典检索方法）在同等设置下需要209个，密集检索方法需要208个。也就是说，潜在记忆用不到三分之一的计算量，达到了相当的准确度。

在跨数据集泛化测试中，研究团队只在HotpotQA（一个以多跳推理为主的问答数据集）上训练了压缩器，然后不做任何调整，直接拿去测试2WikiMultihopQA和MuSiQue这两个不同来源的数据集，依然取得了有竞争力的结果。在检索召回率这一指标上，潜在记忆在5条检索时达到了52.2的平均召回率，超过了对比的所有文字检索方法。这说明统一的检索-生成空间确实让检索质量本身也得到了提升，而不只是在节省计算资源。

如果给每条知识分配8个符号而非1个，准确度还会进一步提升，甚至在所有k值设置下都超过了最强的基线方案，同时仍然比原始文字检索方案使用更少的符号。这说明符号数量可以作为一个灵活的"旋钮"，根据实际需求在效率和准确度之间调节。

在存储空间方面，研究团队也做了详细的对比计算。对于文字资料，每条原始文字片段平均只有0.23KB，而一个潜在记忆符号需要4KB，所以在纯文字场景下潜在记忆反而更占空间。但对于图片资料，情况完全反转——WebQA数据集中每张图片平均209KB，而一个LLaVA图片对应的潜在记忆符号只有8KB，节省了约26倍的存储空间。进一步计算表明，对于边长超过约53像素的正方形图片，潜在记忆的存储效率就已经优于原始未压缩图片了，而实际使用中几乎所有有意义的图片都远远大于这个尺寸。

---

六、拆开来看：每个设计选择的作用

为了验证每个设计选择的必要性，研究团队做了一系列"拆件测试"，也就是逐一去掉某个组件，看看性能会怎么变化。

去掉重建损失之后，答案质量和检索召回率都下降了，而且答案质量的下降幅度比检索召回率更大。这说明重建损失不只是帮助保留了信息本身，还间接帮助稳定了整个知识空间的结构，使得检索也更准确。

如果在重建训练中去掉负样本（也就是不相关的知识条目），检索准确率下降得更明显。这说明负样本扮演了"锚点"的角色——正是因为系统需要区分相关和不相关的知识，它才学会了在数字空间里把不同主题的知识分隔开来，形成有意义的聚类结构。

如果加入对问题本身的重建训练，性能反而下降了。原因在于，问题的向量承担着"导航"的功能——它需要在知识空间里指向正确的方向。如果同时还要求它能重建出原始问题文字，这两个目标会产生冲突，导致导航精度下降。

在蒸馏损失的训练中，如果把少量随机不相关的知识符号混入学生的输入（模拟现实中检索出错的情况），虽然直觉上这应该帮助模型学会在噪声中工作，但实验发现这样做反而降低了性能，说明干净的训练信号对于这种高度压缩的表示方式更为重要。

研究团队还测试了更大的压缩器：把1B（10亿）参数的LLaMA换成3B参数的LLaMA，答案质量进一步提升，说明压缩器的能力上限还没有达到，更强的压缩器能产生质量更好的知识胶囊。

---

七、潜在记忆用于检索还是用于生成，哪个贡献更大？

研究团队还做了一个非常有趣的"拆分实验"：只用潜在记忆的检索部分，但检索完成后，把原始文字或图片展开来给大型AI看，而不是继续用潜在记忆符号。这样就能区分出，潜在记忆的贡献到底主要来自更好的检索，还是来自更高效的生成表示。

在纯文字场景下，这种"只用潜在记忆检索、用原始文字生成"的混合方案，实际上在准确度上超过了完整的潜在记忆方案——毕竟展开原始文字给了AI更多信息，但代价是消耗了更多符号。这说明在文字场景里，完整潜在记忆的价值主要在于效率，而其检索能力确实比传统方法更强。

在图片场景下，结论则有所不同。"只用潜在记忆检索、用原始图片生成"的混合方案，在文字类问题上表现不错，但在图片类问题上反而不如完整潜在记忆方案。这是因为原始图片输入太大，容易撑爆大型AI的上下文窗口，反而导致质量下降。潜在记忆的符号表示在这里起到了双重作用：既压缩了体积，又保留了大型AI能够理解的关键信息。

这一发现说明，潜在记忆在文字和图片场景下的价值来源不尽相同，但在两种场景下都能带来实际收益。

---

八、目前的局限与未来方向

任何研究都有其边界，这项工作也不例外。研究团队坦诚地指出，当前设计假设每条知识都是相对独立的原子单元（一段文字或一张图片），可以被单独压缩和检索。这对于WebQA类型的问答任务是合理的，因为答案通常只依赖于少数几条独立的事实或图片。

但对于结构更复杂的内容，这个假设就会遇到困难。复杂表格需要理解行列之间的关系和排版布局；长视频需要把握时间顺序上的事件演进；文档页面可能需要同时理解图注、图片和周围文字之间的空间关系。把这些内容强行切割成独立片段后压缩，可能保留了局部语义但丢失了结构性信息。

研究团队计划在未来把潜在记忆扩展到这些更复杂的模态，加入位置、排版、时序等结构维度，让检索和生成能够同时利用局部语义和全局结构。此外，目前这项研究专注于外部知识，还没有涉及"智能体自己产生的记忆"这类场景，这也是未来可以探索的方向。

---

说到底，这项研究解决的是一个非常具体而实际的问题：让AI的记忆检索系统在资源受限的环境下也能高效运转。通过把每一条知识——无论是文字还是图片——压缩成一个超小型的"知识胶囊"，系统不仅节省了大量计算资源，还意外地提升了在图片问答上的准确度，原因是避免了传统方法中图片太大导致AI"撑不下"的问题。

这对普通人来说意味着什么？可以预期的是，未来的手机助手、智能家居设备、车载AI等资源有限的场景，都有可能受益于这类技术，能够处理更多图文知识、回答更复杂的问题，同时不需要持续联网或依赖强大的云端服务器。当然，这项技术目前还处于研究阶段，距离大规模商业落地仍有一段距离，尤其是在处理视频、表格等复杂结构内容方面还有待突破。

一个值得思考的问题是：当知识被高度压缩成一个数字向量后，AI"理解"知识的方式和人类的理解是否还有相通之处？研究团队可以通过解码这些向量来重建出大概的原始内容，说明这些"胶囊"并不是完全不可解释的黑盒，但其内部结构与人类直觉之间的关系仍然是一个开放的谜题。对这一方向感兴趣的读者，可以通过论文编号arXiv:2606.10572找到完整研究内容，深入了解其中的技术细节。

---

Q&A

Q1：潜在记忆（Latent Memory）是什么技术？

A：潜在记忆是新加坡国立大学提出的一种知识压缩方案，能把一段文字或一张图片压缩成单个极小的数字向量，让AI直接用这个向量来检索和回答问题，不需要处理原始文字或图片，大幅节省计算资源。

Q2：潜在记忆和传统RAG检索增强生成有什么区别？

A：传统RAG在检索到相关资料后，会把原始文字或图片完整地输入给AI，消耗大量计算符号。潜在记忆则是直接把压缩后的符号输入给AI，每条知识只占一个符号，计算量降低3到10倍，在图片问答上还避免了因内容太多超出AI处理上限的问题。

Q3：潜在记忆压缩后信息会丢失吗？

A：会有一定损失，但研究团队通过三种训练方式（重建、对比、蒸馏）让压缩器尽量保留对检索和作答最关键的信息。用8个符号代替1个符号时，准确度可以进一步提升，甚至超过传统检索方案，说明符号数量可以灵活调节。

人工智能多模态问答高效压缩

分享至