微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 多模态AI学会了"边搜边想":ByteDance团队让机器人像人类一样智能搜索

多模态AI学会了"边搜边想":ByteDance团队让机器人像人类一样智能搜索

2025-06-30 10:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 10:53 科技行者

这项由ByteDance和新加坡南洋理工大学S-Lab联合开展的突破性研究发表于2025年6月,研究团队开发出名为MMSearch-R1的创新框架。有兴趣深入了解的读者可以通过项目主页https://github.com/EvolvingLMMs-Lab/multimodal-search-r1访问完整论文和代码。

在我们的日常生活中,当遇到不认识的东西时,我们会本能地选择搜索获取信息。比如看到一朵不认识的花,我们可能会拍照然后用图片搜索;听到一个陌生的概念,我们会打开搜索引擎输入关键词。更重要的是,我们知道什么时候需要搜索,什么时候依靠已有知识就够了。然而,现在的人工智能系统却缺乏这种"智慧搜索"的能力。

传统的AI就像一个固执的学者,要么完全依赖自己脑中的知识回答问题,要么就盲目地搜索一大堆可能无关的信息。这就好比你问路时,遇到的要么是一个从不问路只凭记忆指路的人(经常指错),要么是一个不管什么问题都要翻遍所有地图的人(效率极低)。这种状况在需要处理图片和文字混合信息的场景中尤其突出。

ByteDance的研究团队意识到了这个问题的严重性。现有的AI系统在面对需要外部知识的复杂问题时,往往表现得像个"书呆子"——要么因为知识有限而胡说八道,要么机械地执行预设的搜索流程,完全不考虑是否真的需要搜索。这种状况严重限制了AI在真实世界中的实用性,特别是在需要处理时事信息、专业知识或者罕见概念的场景中。

为了解决这个根本性问题,研究团队提出了一个革命性的解决方案:让AI学会"按需搜索"。这就像训练一个学生不仅要学会知识,更要学会什么时候承认自己不知道,什么时候需要查资料,以及如何高效地查找和利用资料。这种能力对于构建真正智能、可靠的AI助手来说至关重要。

**一、突破性创新:首个端到端的多模态搜索学习框架**

MMSearch-R1的核心创新就像为AI配备了一套完整的"学习如何学习"的系统。传统的方法就好比给学生一个固定的学习计划表——不管遇到什么问题都按照相同的步骤执行。而MMSearch-R1更像是培养学生的学习直觉,让它们能够根据具体情况灵活调整学习策略。

这个系统的独特之处在于采用了端到端的强化学习训练。通俗地说,就是让AI在大量的实践中逐渐摸索出最佳的搜索策略,就像一个人通过无数次的试错逐渐掌握了高效学习的窍门。这种训练方式让AI不仅能够掌握具体的搜索技能,更重要的是培养了"搜索直觉"——知道什么时候搜索、搜索什么内容、如何处理搜索结果。

研究团队设计的训练过程非常巧妙,他们为AI设置了一个奖励机制:如果AI能够在不搜索的情况下正确回答问题,就给予最高奖励;如果需要搜索但搜索后能得到正确答案,奖励会稍微降低。这种设计鼓励AI优先使用内在知识,只在必要时才进行搜索,避免了盲目搜索的问题。

更令人印象深刻的是,MMSearch-R1整合了两种不同类型的搜索工具:图像搜索和文本搜索。图像搜索就像是给AI配备了"识图神器",当它看到不认识的物体时,可以通过视觉相似性找到相关网页;文本搜索则让AI能够针对具体问题生成精确的查询语句,获取文字信息。这两种工具的结合使得AI能够处理更复杂、更真实的多模态问题。

在技术实现上,研究团队采用了GRPO(群体相对策略优化)算法作为训练基础。这个算法的优势在于不需要单独训练一个评价模型,而是通过比较一组回答的相对质量来指导学习。这就像是让学生通过观察同班同学的表现来改进自己的学习方法,而不需要专门的老师来评分。这种方法既提高了训练效率,又降低了计算成本。

**二、数据构建:精心设计的"搜索平衡"训练集**

构建高质量的训练数据是整个项目成功的关键,这个过程就像为学生精心挑选练习题——既要有难的也要有容易的,既要有需要查资料的也要有凭知识就能答的。研究团队创建了一个名为FactualVQA(FVQA)的数据集,这个数据集的独特之处在于实现了"搜索平衡"。

所谓搜索平衡,就是在训练数据中合理搭配需要搜索的问题和不需要搜索的问题。这种平衡至关重要,因为如果训练数据中全是需要搜索的问题,AI就会养成"遇事必搜"的坏习惯;反之,如果全是简单问题,AI就不会学会何时求助外部信息。

数据集的构建过程采用了半自动化的方式。研究团队首先从MetaCLIP的元数据分布中采样了大量视觉概念,这些概念涵盖了从常见物品(如汽车、树木)到罕见概念(如袋狼、星盘)的广泛范围。对于每个概念,他们通过网络搜索获取最相关的图片和网页内容,然后让GPT-4o基于这些材料生成事实性的问答对。

为了确保问题的多样性和实用性,研究团队建立了一个知识分类体系,涵盖了艺术、地理、人物、工业、科学、自然、实体和事件等八大类别。每个类别下又有更细致的分类,确保生成的问题能够全面覆盖人类可能遇到的各种知识需求。这种系统性的分类方法保证了训练数据的全面性和代表性。

特别值得一提的是,研究团队还设计了一个创新的"搜索需求评估"机制。他们先用一个基础模型对所有问题进行测试,根据模型能否在不搜索的情况下正确回答来判断问题的搜索需求。如果模型在八次尝试中都无法正确回答,说明这个问题确实需要外部信息;如果至少有一次能够正确回答,则认为这是一个可以依靠内在知识解决的问题。

最终构建的FVQA训练集包含5000个样本,其中约3400个是需要搜索的问题,1600个是可以直接回答的问题。这个比例经过精心调试,既能让AI学会搜索技能,又能培养其搜索判断力。除了训练集,研究团队还构建了一个包含1800个样本的高质量测试集,所有样本都经过人工验证或标注,确保评估结果的可靠性。

**三、技术架构:多回合交互的智能搜索系统**

MMSearch-R1的技术架构就像是为AI搭建了一个完整的"研究工作站",配备了各种工具和明确的工作流程。整个系统采用多回合对话的形式,让AI能够在一个复杂问题的解决过程中多次思考、多次搜索,直到找到满意的答案。

系统的工作流程非常类似于人类解决问题的思维过程。首先,AI会仔细分析问题和提供的图片,判断是否需要额外信息。如果认为自己的知识足够,就直接给出答案;如果觉得需要更多信息,就会选择合适的搜索策略。这个判断过程是整个系统的核心,也是通过强化学习重点培养的能力。

当AI决定需要搜索时,它有两种工具可以选择。图像搜索工具基于SerpApi构建,能够处理用户提供的图片,返回视觉上相似的网页缩略图和标题。这个工具特别适合识别图片中的未知物体、地点或人物。文本搜索工具则更加复杂,它整合了SerpApi、Jina Reader和网页摘要模型,形成了一个完整的"搜索-解析-总结"流水线。

文本搜索的工作原理特别巧妙。当AI需要文本信息时,它会根据问题自主生成搜索查询,然后SerpApi返回相关网页链接。接下来,Jina Reader负责获取并清洁网页内容,将其转换为结构化的文本。最后,一个专门的摘要模型(研究中使用的是Qwen3-32B)会针对原始问题提取最相关的信息,形成简洁的摘要。这种多步处理确保了AI获得的信息既相关又易于理解。

为了提高系统的稳定性和效率,研究团队还实现了多层缓存机制。图像搜索结果会被缓存以避免重复调用API;网页解析结果和摘要也会被存储,减少重复计算。同时,系统还实现了分布式限流,在保证服务质量的同时控制对外部服务的请求频率。

在训练过程中,系统采用了精心设计的提示模板来指导AI的行为。这些模板不仅告诉AI如何使用搜索工具,更重要的是教会它如何进行推理。每次AI需要采取行动(无论是搜索还是回答)之前,都必须在特定标签内进行推理,解释自己的思考过程。这种强制推理不仅提高了AI的决策质量,也让整个过程更加透明和可解释。

**四、奖励机制:培养"精明搜索者"的秘诀**

MMSearch-R1的奖励机制设计堪称整个项目的精髓,这套机制就像是为AI制定了一套"搜索行为准则",既鼓励准确性又促进效率。传统的AI训练往往只关注最终答案的正确性,而忽视了获得答案的过程是否合理。MMSearch-R1的创新之处在于将搜索行为本身纳入了评价体系。

奖励机制由两个主要组成部分构成:准确性分数和格式分数。准确性分数采用精确字符串匹配的方式,如果AI的答案与标准答案完全一致,就获得满分;否则得零分。虽然这种评价方式看似严格,但对于事实性问答来说确实最为可靠和一致。

更巧妙的是搜索惩罚机制的引入。当AI给出正确答案时,系统会进一步检查它是否使用了搜索工具。如果使用了搜索,准确性分数就会乘以一个小于1的惩罚因子(在实验中设为0.9)。这种设计传达了一个明确的信号:在能够依靠内在知识解决问题时,搜索是不必要的,甚至是不被鼓励的。

这种惩罚机制的心理学基础非常有趣。就像训练一个学生,我们希望他既能独立思考,又能在必要时寻求帮助。如果学生遇到每个问题都要查资料,说明他过度依赖外部信息,缺乏独立思考能力;反之,如果他从不查资料,可能会在知识不足时犯错。适度的"搜索惩罚"正是为了找到这个平衡点。

格式分数的设计同样重要,它确保AI严格遵守预定的交互协议。AI必须在每次行动前进行推理,必须使用正确的标签格式调用搜索工具,必须在给出最终答案时使用规定的标签。只有当所有这些格式要求都得到满足时,AI才能获得满分的格式分数。这种严格的格式要求虽然看似繁琐,但对于训练可靠的多回合交互系统至关重要。

最终的奖励分数是准确性分数(包含搜索惩罚)和格式分数的加权平均,权重参数在实验中设为0.9和0.1。这个权重分配体现了研究团队的优先级:准确性是最重要的,但规范的交互形式也不可忽视。

通过这套精心设计的奖励机制,MMSearch-R1逐渐学会了"聪明搜索"的艺术。它不再是一个要么完全依赖自己、要么盲目搜索的系统,而是成为了一个能够准确判断何时需要外部帮助的智能助手。这种能力的培养过程需要大量的试错和调优,但最终的效果证明了这种投入的价值。

**五、实验验证:全方位的性能对比**

为了验证MMSearch-R1的实际效果,研究团队设计了一系列全面的实验,就像为新产品进行各种严格的质量检测。这些实验不仅要证明新系统的优越性,还要深入分析其行为特点和适用场景。

实验设置涵盖了五个不同的数据集:FVQA-test、InfoSeek、MMSearch、SimpleVQA和LiveVQA。这些数据集就像不同类型的考试,各自侧重于不同的能力测试。FVQA-test和InfoSeek属于"内部考试",因为它们与训练数据来源相似;而MMSearch、SimpleVQA和LiveVQA则是"外部考试",测试系统在完全陌生环境下的表现。

为了确保对比的公平性,研究团队设置了多组基准系统。直接回答基准让各种模型在不使用任何外部信息的情况下回答问题,这测试的是模型的"内在智慧"。RAG工作流基准则要求所有模型对每个问题都执行固定的搜索流程——先图像搜索,再文本搜索,最后给出答案。这种对比设计让研究人员能够清楚地看出"按需搜索"相比"盲目搜索"的优势。

实验结果令人印象深刻。在平均准确率方面,MMSearch-R1-7B达到了54.6%,比同规模的RAG基准提高了3个百分点。更重要的是,它的搜索率仅为67.1%,远低于RAG基准的100%。这意味着MMSearch-R1不仅答题更准确,而且搜索更加高效,避免了不必要的信息检索。

特别值得注意的是,MMSearch-R1-7B的表现甚至接近了规模大4倍多的Qwen2.5-VL-32B RAG基准。这个结果说明,通过学会"聪明搜索",一个相对较小的模型就能达到大模型的效果。这就像一个经验丰富的小助手可能比一个经验不足的大助手更有效率。

**六、深度分析:五大关键发现**

通过深入分析实验数据,研究团队发现了五个重要的现象,这些发现不仅验证了方法的有效性,还为未来的研究提供了宝贵的洞察。

第一个发现是强化学习确实让模型学会了识别知识边界。通过对比分析,研究人员发现经过训练的模型在面对不同类型的问题时会表现出明显不同的搜索行为。对于那些属于其知识范围内的问题,模型倾向于直接回答;而对于超出其知识范围的问题,模型会主动寻求外部帮助。这种行为模式与人类的学习行为非常相似。

第二个发现涉及搜索技能的全面提升。即使在固定的RAG工作流下(强制执行搜索),经过强化学习训练的模型仍然比基础模型表现更好。这说明训练过程不仅教会了模型何时搜索,还提升了它生成有效搜索查询和处理搜索结果的能力。这就像一个学生不仅学会了何时查字典,还学会了如何更高效地使用字典。

第三个发现特别有趣:强化学习提升了模型利用内在知识的能力。通过行为分析,研究人员发现训练后的模型在"正确且无搜索"类别中的比例显著提高。这意味着模型不仅变得更善于搜索,还变得更善于挖掘和利用自己已有的知识。这种双重改进是意料之外的惊喜。

第四个发现来自与监督学习的对比实验。研究团队用相同规模的数据分别进行了强化学习和监督学习训练。结果显示,强化学习在所有测试任务上都表现更好,而且数据效率更高。更重要的是,强化学习训练的模型在搜索行为上更加符合任务需求——在确实需要搜索的任务上搜索更频繁,在简单任务上更多依靠内在知识。

第五个发现验证了数据平衡和搜索惩罚的重要性。研究团队进行了消融实验,分别移除搜索惩罚和数据平衡两个设计要素。结果显示,没有这些设计的模型虽然能达到稍高的准确率,但搜索率几乎达到100%,完全失去了按需搜索的能力。这个结果强调了在强化学习中适当约束的重要性。

**七、技术细节:工程实现的智慧**

MMSearch-R1的成功不仅在于算法设计的巧妙,更在于工程实现的精细。研究团队在系统构建过程中解决了大量实际挑战,这些技术细节虽然不够炫目,但对系统的稳定运行至关重要。

搜索工具的实现采用了微服务架构,将图像搜索和文本搜索封装为独立的HTTP服务。这种设计不仅提高了系统的可扩展性,还便于进行性能优化和故障隔离。每个搜索服务都实现了多层缓存机制,避免重复调用昂贵的外部API。

图像搜索相对简单,主要依赖SerpAPI返回视觉相似的网页信息。但文本搜索的实现要复杂得多,涉及搜索、解析、摘要三个步骤的协调。为了提高效率,系统采用了流水线并行处理:当SerpAPI返回多个网页链接时,Jina Reader会并行处理这些链接,同时摘要模型也会并行生成多个摘要。

缓存系统的设计特别精巧。由于JINA解析结果通常很大,直接存储在Redis中会消耗过多内存,因此系统将解析结果存储在对象存储中,Redis只保存引用键。这种设计在保证访问速度的同时大大降低了存储成本。

分布式限流的实现也体现了工程师的智慧。由于训练过程需要大量并发的搜索请求,直接访问外部服务很容易触发频率限制。系统使用Redis实现了分布式令牌桶算法,在多个训练节点之间协调请求频率,确保既能充分利用外部服务的容量,又不会因为超限而导致请求失败。

训练框架基于veRL构建,这是一个专门为大模型强化学习设计的框架。研究团队对框架进行了重要修改,使其能够处理多回合对话和外部工具调用。训练过程中的一个关键挑战是如何处理搜索工具返回的内容:这些内容不应该参与梯度计算,因为它们来自外部环境而非模型生成。团队通过精心设计的遮罩机制解决了这个问题。

**八、广泛影响:改变AI应用的新范式**

MMSearch-R1的意义远超出一个技术演示,它代表了AI系统设计思路的根本性转变。传统的AI系统要么是封闭的"知识容器",要么是机械的"搜索执行器",而MMSearch-R1展现了第三种可能:自主判断、灵活搜索的"智能助手"。

这种转变的影响是深远的。在教育领域,这样的AI助手可以真正成为学生的学习伙伴,知道何时提供直接帮助,何时引导学生自己思考,何时建议查阅额外资料。在客服领域,AI能够根据问题的复杂程度自主决定是否需要查询知识库或联系人工客服,避免千篇一律的机械回复。

在研究和分析工作中,这种技术的价值更加明显。传统的信息搜索往往是盲目的——研究人员不确定需要什么信息就开始搜索,结果在信息海洋中迷失方向。而具备按需搜索能力的AI助手可以根据研究目标的具体情况,有针对性地获取所需信息,大大提高研究效率。

从技术发展的角度来看,MMSearch-R1也开创了新的研究方向。它证明了通过强化学习可以有效地训练AI的"元认知"能力——不仅知道如何做,还知道何时做。这种方法论可以推广到其他需要工具使用的AI任务中,比如代码生成、数据分析、创意写作等。

更重要的是,这项研究为解决AI的"幻觉"问题提供了新思路。AI幻觉往往源于模型在知识不足时仍然试图给出答案。MMSearch-R1通过教会AI承认无知并主动寻求帮助,从根本上减少了这种问题的发生。这种"谦逊"的AI可能比"无所不知"的AI更值得信赖。

**九、未来展望:智能搜索的进化之路**

尽管MMSearch-R1已经取得了令人瞩目的成果,但研究团队也清醒地认识到还有很大的改进空间。当前系统在搜索工具的稳定性和质量方面仍有提升余地,特别是在处理复杂网页内容和动态信息时。

奖励机制的改进是另一个重要方向。目前使用的精确字符串匹配虽然简单可靠,但对于开放性问题可能过于严格。研究团队已经进行了使用GPT-4o作为奖励模型的初步实验,结果显示这种更灵活的评价方式能够带来进一步的性能提升,但同时也引入了新的复杂性和计算成本。

搜索工具的多样化也是未来的发展方向。除了当前的图像搜索和文本搜索,未来的系统可能集成更多专业工具,比如数学计算器、代码执行器、实时数据查询接口等。每种工具都有其特定的适用场景,如何训练AI正确选择和使用这些工具将是一个富有挑战的研究问题。

在更深层次上,这项研究开启了关于AI自主性的重要讨论。一个能够自主决定何时寻求外部帮助的AI系统,实际上已经具备了某种程度的自主判断能力。随着这种能力的进一步发展,我们需要思考如何确保AI的决策过程保持透明和可控。

从应用角度来看,按需搜索技术有望与其他AI能力结合,创造出更加强大的智能系统。比如,结合多模态理解、逻辑推理、创意生成等能力,未来的AI助手可能真正成为人类的智能伙伴,在各种复杂任务中提供有价值的支持。

**结语:AI学会了"不知为不知"**

说到底,MMSearch-R1最大的贡献可能不在于技术细节的创新,而在于它体现的设计哲学:让AI学会承认无知,并知道如何弥补无知。这种哲学与古代圣贤的"知之为知之,不知为不知"不谋而合,体现了真正的智慧。

在这个信息爆炸的时代,我们面临的往往不是信息匮乏,而是信息过载。如何在浩瀚的信息海洋中准确找到所需内容,成为了一个越来越重要的技能。MMSearch-R1让我们看到,AI不仅可以学会这种技能,还可能在某些方面超越人类。

更重要的是,这项研究为构建更可信、更实用的AI系统指明了方向。一个知道自己边界的AI,比一个假装无所不知的AI更值得信赖。当AI开始学会说"我不知道,但我可以帮你查一下"时,它就不再只是一个工具,而是一个真正的助手。

这种转变对普通用户来说意义重大。我们不再需要担心AI会胡编乱造一个听起来合理的答案,因为它已经学会了在不确定时主动寻求可靠信息。这种可靠性是AI走向实际应用的关键基础。

ByteDance和南洋理工大学的这项研究,实际上为我们描绘了未来AI助手的雏形:既博学又谦逊,既独立又善于求助,既高效又可靠。虽然距离这个愿景的完全实现还有很长的路要走,但MMSearch-R1已经让我们看到了希望的曙光。在这个AI快速发展的时代,这种"智能搜索"的能力可能会成为下一代AI系统的标准配置,深刻改变我们与机器交互的方式。

Q&A

Q1:MMSearch-R1是什么?它和普通的AI搜索有什么不同? A:MMSearch-R1是一个能够自主判断何时需要搜索的AI系统。与普通AI搜索的最大区别在于,它不是机械地对每个问题都执行搜索,而是会先判断能否用自己的知识回答,只在必要时才搜索。这就像一个聪明的学生,知道什么时候需要查资料,什么时候可以直接回答。

Q2:这个技术会不会让AI变得过于依赖搜索引擎? A:恰恰相反,MMSearch-R1的设计目标是减少不必要的搜索。通过奖励机制,系统鼓励AI优先使用内在知识,只在确实需要时才搜索。实验结果显示,它的搜索频率比传统方法降低了30%以上,同时准确率还有所提升。

Q3:普通用户什么时候能够使用到这种技术? A:目前MMSearch-R1还处于研究阶段,研究团队已经开源了代码和数据。预计在未来1-2年内,类似的按需搜索技术可能会集成到各种AI助手和搜索产品中。这将让我们的AI助手变得更加智能和可靠,能够在提供帮助时更加精准和高效。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-