微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 蚂蚁集团打造的"超强小脑":一个只有4B参数的AI研究助手,如何以一敌十挑战百亿级大模型?

蚂蚁集团打造的"超强小脑":一个只有4B参数的AI研究助手,如何以一敌十挑战百亿级大模型?

2026-05-01 16:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-01 16:34 科技行者

这项由蚂蚁集团Venus团队主导的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.19859,有兴趣深入了解的读者可以通过该编号查询完整原文。

**研究背景:为什么我们需要一个"迷你"但聪明的研究助手?**

当你需要查询一个复杂问题的答案时,比如"某种罕见疾病的最新治疗方案是什么"或"某个历史事件背后的多方证据如何相互印证",你可能会在搜索引擎上反复查找、点开一个个网页、比对不同来源的信息,花上数小时才能整理出一个相对可靠的结论。这种繁琐的"深度研究"工作,正是蚂蚁集团这支研究团队想要交给AI来完成的事情。

他们开发的系统叫做**DR-Venus**,其中DR代表"Deep Research",也就是深度研究。这个AI助手的特别之处在于,它不只是回答你一个问题,而是像一个勤奋的研究员一样,自主地在网上搜索信息、打开网页、阅读内容、提炼证据,然后综合多方资料给出一个完整的答案。更关键的是,它完成这些工作所使用的"大脑"只有40亿个参数——在AI领域,这个规模属于相当小巧的范畴,大约相当于一个能部署在手机或边缘设备上的轻量级模型,而不是那种需要大型数据中心才能运行的庞然大物。

为什么这件事值得关注?因为目前市面上能做类似"深度研究"任务的AI系统,要么体量庞大(动辄300亿参数以上),要么依赖闭源数据和复杂的训练流程,普通人和中小企业很难复现或部署。而DR-Venus的研究团队提出了一个核心问题:在数据量有限、模型体积受限的情况下,能不能把一个小模型训练得足够强大,强到能与那些"大块头"一较高下?

答案是肯定的。这篇论文的核心发现是:通过精心设计训练数据的质量和利用效率,一个仅有40亿参数的模型,不仅能全面超越大多数90亿参数以下的同类竞品,还能在多个关键测试上逼近甚至超越那些参数量是它七八倍的大型系统。

---

**一、深度研究任务究竟是什么?为什么它特别难?**

普通的AI问答,就像在一个巨大的知识库里翻找答案——你问一句,它查一下,给你一个回答。但"深度研究"完全不同。以侦探破案作为贯穿理解的核心比喻:普通问答像是翻查档案馆的已有记录,而深度研究则像是侦探亲自上街调查,挨家挨户敲门询问,再把零散的线索拼凑成完整的案情。

具体来说,DR-Venus在工作时会经历这样一个循环:收到用户的查询问题后,它首先进行网络搜索,得到一批相关链接和摘要;接着它会挑选关键链接,实际"点进去"阅读网页的详细内容;读完之后,它判断是否已经掌握足够的证据,如果还不够,就继续新一轮搜索和浏览;直到它确信已经收集到足够可靠的信息,才会综合所有线索给出最终答案。

这个过程可能需要几十步、甚至两百多步的来回操作,每一步都涉及判断、选择和推理。对于人类侦探来说,这需要经验和直觉;对于AI来说,这需要模型具备稳定的"长线规划"能力——不能在第十步就放弃调查,也不能在第五十步忘记第三步得到的关键证据。研究团队将这种多轮交互的任务形式正式定义为"长时域深度研究",并将其作为训练和评估的核心场景。

在技术层面,团队把这个问题形式化地描述为:给定一个用户查询,模型在每一个回合生成一个"思考过程"和一个"行动"(搜索或浏览或给出答案),环境返回观察结果(搜索结果或网页内容),这样一轮一轮地推进,直到模型给出最终答案为止。整个过程形成一条"轨迹",就像侦探的办案笔记,记录了每一步的推理和行动。

---

**二、训练这个"小侦探"的第一步:清洗案件档案**

要训练一个好侦探,最直接的方式是给他看大量优质的破案案例,让他从中学习推理模式和调查技巧。DR-Venus的第一个训练阶段正是这个思路——用监督微调(Supervised Fine-Tuning,简称SFT)的方式,让模型从已有的深度研究轨迹中学习。

原始的"案例档案"来自一个公开数据集,叫做REDSearcher,共包含10001条深度研究轨迹,每条轨迹都记录了AI完成一项深度研究任务的全过程——包括每一步的搜索查询、浏览的网页、中间的推理过程,以及最终的答案。然而,这批档案的质量参差不齐,就像侦探学校图书馆里有些案例记录清晰规范,有些则混乱不堪,充斥着无效信息和错误结论。

研究团队设计了一套四步清洗流程,逐步提升这批档案的质量。第一步是"格式对齐",把所有档案统一转换成与实际部署环境完全一致的格式,包括系统提示词的写法、工具调用的参数格式、工具返回内容的结构等。这一步就像把所有案例记录统一转换成同一种语言和格式,确保模型学到的习惯和它实际工作时的环境完全吻合,不存在"学校教的"和"实际用的"之间的落差。

第二步是"去除杂质"。研究团队的实际工作环境只支持两种工具:搜索和浏览。但原始轨迹中有些案例还使用了Python解释器等其他工具,这些对于当前任务来说是"多余的技能"。团队选择的处理方式不是直接丢掉整个案例,而是精准地把涉及不支持工具的那几步操作切除,保留案例中其余有效的部分。这一步共处理了1064条轨迹,删除了3378个不支持的工具调用。与此同时,他们还发现了大量"重复行动"——同样的网页被访问了好几次,同样的搜索被重复执行。这种冗余主要发生在浏览环节,说明模型在网页阅读阶段容易原地打转。经过去重处理,共删除了15728个重复操作。

第三步是"正确性筛查"。即使格式正确、没有冗余,如果一个案例的最终结论是错的,让模型从中学习只会让它学会错误的推理模式。团队使用了一个更强的大模型(Qwen3-235B)作为"督导侦探"来评判每个案例的最终答案是否正确,只保留答案正确的案例。经过这一步,共保留了9365条有效轨迹,正确率达到93.65%。

第四步是最具创意的"重采样"策略,也是整个数据处理流程中最值得关注的设计之一。深度研究的本质是长时域任务,那些只有二三十步就结束的案例,其实训练价值相对有限;而那些需要一百多步、经历大量搜索与浏览、最终综合多条证据才得出答案的复杂案例,才是最接近真实深度研究挑战的训练素材。

基于这个判断,团队给不同长度的案例分配了不同的"出现频率":轨迹步数在50步以下的案例,以正常频率出现;51到100步的案例,出现频率翻倍;100步以上的复杂案例,出现频率提升到五倍。这个策略把训练数据集从9365条扩展到18745条,同时大幅提升了长轨迹的比例——100步以上的复杂案例比例从原来的13.29%提升到了33.21%。

用侦探比喻来说:与其让新侦探反复练习简单的小案子,不如多给他分配那些需要长期追踪、多方取证的复杂悬案,这样他才能真正锻炼出长线作战的能力。

---

**三、训练这个"小侦探"的第二步:用奖惩机制打磨实战技巧**

仅仅靠"模仿优质案例"还不够,即使是读了大量案例的侦探,在实战中仍然可能犯错——格式不规范、在关键时刻放弃浏览转而依赖不可靠的搜索摘要、或者在明明需要继续深挖时过早下结论。DR-Venus的第二个训练阶段,正是要通过强化学习(Reinforcement Learning,简称RL)来纠正这些实战中的问题。

强化学习的基本逻辑类似于训练一只小狗:做对了给奖励,做错了给惩罚,通过大量的试错循环,让模型逐渐学会什么样的行为最有效。但对于深度研究这种长时域任务,传统的强化学习面临一个严重问题:在一个长达两百步的任务轨迹中,只有最后给出正确答案才能获得奖励,而前面199步的每一个操作都没有任何反馈。这就好像训练侦探时,只告诉他"你这个案子破了/没破",却从不告诉他哪些侦查步骤做得好、哪些步骤走了弯路——学习效率极其低下。

更糟糕的是,对于一个能力相对有限的小模型来说,它自己生成的很多"实战案例"根本就没有最终破案(得到正确答案),整批练习材料里可能找不到一个成功的范例,导致奖励信号完全消失,训练陷入停滞。研究团队把这个现象称为"优势崩塌"。

为了解决这个问题,团队采用了一种叫做IGPO(Information Gain-based Policy Optimization,基于信息增益的策略优化)的方法。IGPO的核心思想可以用侦探比喻来理解:每当侦探完成一个侦查步骤,不等到最终破案,就立刻评估这一步是否让他"更接近真相"。如果这一步提供的线索让他对正确答案更有把握,就给予即时奖励;如果这一步的线索毫无用处甚至带偏了方向,就给予即时惩罚。

在技术层面,"更接近真相"的程度被定量化为"信息增益"(Information Gain):在某一步行动之前,模型能够正确生成最终答案的概率是多少;在这一步行动之后,这个概率提升了多少。概率提升得越多,说明这一步越有价值,给予的奖励越高。这样一来,即使整条轨迹最终没有得到正确答案,每一个有效的中间步骤也都能获得反馈,训练信号从"每条轨迹一个信号"变成了"每个步骤一个信号",密度大幅提升。

在这个框架上,研究团队还额外设计了两个针对深度研究任务特点的改进。第一个是"浏览感知的信息增益分配":在搜索任务中,搜索步骤通常只返回简短摘要,提供的信息有限;而浏览步骤则深入读取完整网页,获得更具体可靠的证据。因此,团队将信息增益奖励主要分配给浏览步骤,同时把浏览步骤之前的那些搜索步骤也纳入奖励范围,因为正是这些搜索步骤引导模型找到了值得深入阅读的页面。

第二个改进是"逐步骤格式惩罚":如果模型在某一步的输出格式不规范(比如工具调用写法错误、标签不完整),就对这一步施加惩罚,而不是因为一步格式错误就惩罚整条轨迹。对于动辄两百步的长任务,这种精准的逐步惩罚比粗糙的全轨迹惩罚要合理得多,避免了"城门失火、殃及池鱼"式的错误信号。

此外,团队还引入了一个叫做"IG-Scale"的自适应调节机制,用来平衡"逐步奖励"和"最终答案奖励"之间的比重。当模型能够较稳定地得到正确答案时,"最终答案奖励"信号足够强,不需要过多依赖逐步奖励;但当任务难度很高,模型很少能成功破案时,"最终答案奖励"几乎消失,此时应该让逐步奖励发挥更大的引导作用。这个机制会自动检测两类奖励信号的相对强度,动态调整逐步奖励的缩放比例,使训练过程更加稳定。

最后,为了让每一步的奖励不仅反映"当前这一步的价值",还能反映"这一步对未来的影响",团队引入了折扣累积奖励的概念:每一步的实际奖励值,等于这一步本身的奖励加上未来所有步骤奖励的折扣累加,距离越远的未来步骤权重越低。这就像侦探在评估一条线索时,不只看它当下的直接价值,也考虑它可能开启的后续调查路径的价值,只是越远的未来越难预测,所以权重打个折扣。

---

**四、实战检验:小模型究竟有多能打?**

研究团队在六个不同的深度研究基准测试上对DR-Venus进行了全面评估,这些测试覆盖了英文和中文的深度网络搜索任务、通用AI助手任务,以及多步信息整合任务。

以最受关注的两个测试为例——BrowseComp(英文深度浏览测试)和BrowseComp-ZH(中文版),测试的是模型在面对复杂、难以直接搜索到答案的问题时,能否通过多轮深度浏览找到正确答案。这类问题往往需要综合多个不同网页的信息,不是简单搜一搜就能解决的。

在BrowseComp上,DR-Venus-4B-SFT(仅经过第一阶段监督微调的版本)得分26.8,DR-Venus-4B-RL(完整训练版本)得分29.1。作为对比,同量级(90亿参数以下)的其他竞品模型得分大多在5到24之间,最强的竞品AgentCPM-Explore-4B得分24.1。在中文版BrowseComp-ZH上,DR-Venus-4B-RL得分37.7,同样全面领先所有90亿参数以下的对手。

更令人印象深刻的是与大型模型的比较。OpenResearcher-30B-A3B是一个参数量是DR-Venus七倍多的大模型,但在BrowseComp上只有26.3分,DR-Venus-4B-RL以29.1分超过了它;在另一个测试xBench-DS-2505上,DR-Venus-4B-RL得分74.7,而拥有300亿参数的Tongyi-DR-30B得分是75.0,两者差距仅有0.3分。

在六个测试中,与仅进行监督微调的版本相比,加入强化学习后的完整版DR-Venus在五个测试上都有明显提升:BrowseComp提升2.3分,BrowseComp-ZH提升2.0分,xBench-DS-2505提升5.7分,xBench-DS-2510提升5.4分,DeepSearchQA提升1.9分。这说明强化学习阶段对于把一个"会模仿"的模型变成一个"真的擅长"的模型,具有不可替代的作用。

消融实验(也就是逐步去掉某个设计,看看性能会下降多少的对比实验)的结果进一步验证了每个设计选择的价值。去掉重采样策略后,BrowseComp得分从26.8下降到22.8,BrowseComp-ZH从35.7下降到33.9;用普通的GRPO(传统轨迹级强化学习)代替IGPO后,BrowseComp得分不升反降,从26.8跌到25.3,而IGPO则带来了26.8到29.1的提升。这组对比清楚地说明,对于长时域深度研究任务,传统的"只看最终结果"的稀疏奖励强化学习不仅没用,反而可能有害;只有像IGPO这样提供逐步密集反馈的方法,才能真正有效地改善小模型的长线表现。

---

**五、"天花板"究竟有多高?小模型的隐藏潜力**

研究团队做了一个很有意思的分析,叫做Pass@K测试。普通评估通常只测试模型回答一次的准确率(Pass@1),但Pass@K测试的是:如果允许模型尝试K次,至少有一次成功的概率是多少?这个指标揭示的是模型的"能力上限",而不只是"平均发挥水平"。

结果令人惊讶。在BrowseComp上,DR-Venus-4B-SFT的Pass@1只有26.8,但Pass@16(允许16次尝试)高达61.7;完整训练版的DR-Venus-4B-RL的Pass@1是29.1,Pass@16达到63.7。在中文版BrowseComp-ZH上,这个趋势更加明显:DR-Venus-4B-SFT的Pass@1是35.7,但Pass@16飙升到78.5,大幅超越了拥有300亿参数的Tongyi-DR-30B(Pass@1仅46.7),甚至超越了Gemini-3-Pro(Pass@1为66.8)和GPT-5 High(Pass@1为65.0)这两个顶级商业大模型。

用侦探比喻来解释:一个经验稍浅的侦探如果只被允许提交一次破案报告,胜率可能不如经验丰富的老侦探;但如果允许他多次尝试、每次从不同角度切入,他最终找到真相的概率其实并不输给老侦探。换句话说,这个小模型的"潜在能力"远比它的"日常表现"要强得多。

这个发现的实际意义在于:通过让模型多次尝试并选取最佳答案(这种技术通常被称为"测试时扩展"),即使是一个部署在手机或边缘设备上的小模型,也有可能在关键任务上达到接近甚至超越大型商业系统的水准。这为小模型的实际应用打开了一扇新的大门。

---

**六、"浏览"比"搜索"更重要:工具使用习惯的秘密**

研究团队还分析了模型在成功完成任务和失败完成任务时,使用"搜索"和"浏览"两种工具的比例差异,得出了一个具有实践意义的发现。

在所有六个测试中,有一个几乎普遍存在的规律:成功破案的轨迹,浏览操作(深入阅读完整网页)的比例始终高于失败轨迹。监督微调版的正确轨迹中,浏览占所有操作的平均比例为23.71%;而错误轨迹中这个比例只有17.49%(整体平均为17.49%)。

这个差异揭示了深度研究任务的本质:光靠搜索引擎返回的简短摘要(通常只有几句话)往往不足以回答复杂问题,必须真正"深入网页"去读取详细内容,才能获得充分可靠的证据。那些只停留在搜索摘要层面就试图下结论的轨迹,更容易出错。

经过强化学习训练后,这个趋势进一步强化。完整版模型的整体浏览比例从17.49%上升到22.46%,正确轨迹的浏览比例从23.71%上升到28.96%。更重要的是,强化学习修正了一个在监督微调版中存在的"反直觉"现象:在xBench-DS-2510测试中,监督微调版的错误轨迹浏览比例(15.57%)反而略高于正确轨迹(14.51%),这说明模型此时还没有真正学会"有效地浏览",只是漫无目的地多浏览了一些。强化学习之后,这个关系被纠正为正确轨迹(22.99%)明显高于错误轨迹(17.50%),说明模型已经学会把浏览这个工具用在刀刃上,而不是随机使用。

---

**归根结底,这项研究说明了什么?**

说到底,DR-Venus这个项目回答了一个很多人都在问的问题:AI领域是不是只有越大的模型才越强,小模型永远是配角?这项研究给出的答案是:不一定。

关键不只在于模型有多大,更在于你如何训练它。通过精心清洗数据、聪明地重用现有数据、以及设计出能给小模型提供足够密集学习信号的训练方法,一个只有40亿参数的模型,可以在深度研究这个极具挑战性的任务上打败很多"大块头",甚至在允许多次尝试的条件下超越顶级商业大模型。

对于普通用户来说,这意味着未来可能真的会有能部署在个人设备上的AI研究助手——不需要上传数据到云端、不需要担心隐私泄露、响应速度快、使用成本低,却依然能够胜任复杂的多步骤信息检索和综合研究任务。

研究团队已经将模型权重、训练代码和核心方法全部公开,任何有兴趣的研究者都可以在这个基础上继续探索。一个值得思考的问题是:如果数据质量和训练方法这么重要,那么未来是否存在某种极限,让小模型无论怎么训练都无法突破?Pass@K实验暗示,目前小模型的表现瓶颈更多在于"一次命中的稳定性"而非"潜在能力",这意味着在测试时如何更聪明地采样和选择,可能是下一个重要的研究方向。

对这项研究感兴趣的读者,可以通过arXiv编号2604.19859获取完整论文,或前往GitHub上的inclusionAI/DR-Venus项目以及HuggingFace上的inclusionAI/dr-venus模型集合,获取全套代码和模型权重。

---

Q&A

Q1:DR-Venus和普通AI聊天机器人有什么区别?

A:普通AI聊天机器人主要依赖训练时存储的知识来回答问题,知识有截止日期且无法主动上网查找。DR-Venus则能够自主进行多轮网络搜索和网页浏览,像一个真正在上网做研究的助手,可以处理需要综合多个来源信息才能回答的复杂问题,而且能获取最新的网络信息。

Q2:IGPO是什么,为什么它比普通强化学习更有效?

A:IGPO是一种专为长时域任务设计的强化学习方法,全称是"基于信息增益的策略优化"。普通强化学习只在任务最终完成时给出奖励信号,对于需要两百多步的深度研究任务来说,中间绝大多数步骤都没有任何反馈,学习效率极低。IGPO的改进是在每一步都评估这一步让模型"更接近正确答案"了多少,从而把稀疏的终点奖励变成密集的逐步奖励,大幅提升小模型在长时域任务上的学习效果。

Q3:为什么深度研究任务中浏览比搜索更重要?

A:搜索引擎返回的通常只是网页的简短摘要,几句话很难包含回答复杂问题所需的充分细节。浏览则是真正打开网页阅读完整内容,能获得更具体、更可靠的证据。DR-Venus的分析发现,成功完成深度研究任务的轨迹中,浏览操作的比例始终高于失败轨迹,说明深度阅读而非浅层检索才是解决复杂信息查询问题的关键。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-