微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Menlo Research新突破:4B参数的Jan-nano如何用"搜索能力"击败671B参数巨无霸模型

Menlo Research新突破:4B参数的Jan-nano如何用"搜索能力"击败671B参数巨无霸模型

2025-07-02 11:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 11:02 科技行者

这项由加州Menlo Research的Alan Dao(Gia Tuan Dao)和Dinh Bach Vu共同完成的研究发表于2025年7月1日,相关技术报告已在arXiv平台公开发布(编号:arXiv:2506.22760v1)。有兴趣深入了解的读者可以访问Hugging Face平台上的多个模型版本,包括标准版Jan-nano、GGUF格式版本以及支持128K上下文长度的扩展版本。

过去,人工智能模型的发展一直遵循着一个看似铁律的规则:想要更强大的能力,就必须付出更多的计算资源代价。这就像造房子一样,想要更大的房子,就需要更多的材料和空间。但Menlo Research的研究团队却提出了一个颠覆性的想法:与其让AI模型试图记住世界上的所有知识,不如让它精通"找到任何信息"的技能。

这个思路就像培养一个图书管理员。传统的做法是让管理员把图书馆里的每本书都背下来,这需要超人的记忆力。而Jan-nano采用的新方法是让管理员熟练掌握图书馆的检索系统,知道如何快速找到任何需要的信息。结果证明,后者不仅效率更高,而且所需的"脑容量"也小得多。

Jan-nano是一个只有40亿参数的语言模型,基于Qwen3-4B进行了深度改造。在SimpleQA基准测试中,它配合MCP(模型上下文协议)集成后达到了83.2%的准确率。这个成绩有多令人惊讶呢?要知道,连参数量达到6710亿的DeepSeek模型在相同测试中也只达到了78.2%的准确率。这就像一个4年级的小学生在智力竞赛中击败了博士生一样令人震撼。

研究团队的核心创新在于完全摒弃了传统的"下一个词预测"训练方式,转而采用了一种叫做"多阶段RLVR系统"的全新训练方法。传统的语言模型训练就像让学生通过不断的背诵来学习,而新方法更像是通过解决实际问题来提升能力。这种训练方式让Jan-nano学会了如何高效地使用工具,而不是单纯地存储信息。

**一、创新的训练方法论:从背书生到实践家**

Jan-nano的训练过程可以比作培养一个优秀的调研员。传统的AI训练方法就像让调研员死记硬背百科全书,希望他们能回答任何问题。但Jan-nano的训练更像是教会调研员如何使用图书馆、如何搜索数据库、如何验证信息的可靠性。

整个训练过程分为三个循序渐进的阶段,就像学习驾驶汽车一样。第一阶段相当于学习基本操作,让模型掌握如何使用搜索工具和网页抓取功能。第二阶段专注于提高答案质量,就像从新手司机成长为熟练司机。第三阶段则是扩展处理能力,将上下文长度从8K扩展到40K,相当于从城市道路驾驶扩展到高速公路驾驶。

研究团队使用了MuSiQue-Ans数据集进行训练,这是一个专门设计的多跳问答数据集。所谓"多跳"问答,就像解决一个需要多个线索的推理题。比如要回答"谁训练了9/11劫机者中的两人"这样的问题,模型需要先搜索相关信息,然后将不同来源的信息组合起来得出答案。训练数据包含了10325个样本,其中67.8%是需要两步推理的问题,20.8%需要三步推理,11.4%需要四步推理。

最令人惊讶的是,研究团队完全放弃了传统的监督学习方法,转而使用一种叫做DAPO(直接偏好优化对齐)的技术。这种方法的独特之处在于强制模型不进行"思考"过程,直接给出答案。这听起来可能违反直觉,但实际效果证明,对于某些任务来说,过度思考反而会导致性能下降。

**二、本地RAG服务器:搭建专属知识检索系统**

为了训练Jan-nano的搜索能力,研究团队构建了一个模拟真实搜索引擎的本地RAG(检索增强生成)服务器。这个系统就像为模型建立了一个私人图书馆,让它能在可控的环境中学习如何高效检索信息。

这个检索系统采用了两阶段的设计架构。首先使用E5-base-v2编码器对所有文档生成密集嵌入向量,然后使用FAISS库建立索引以实现快速相似性搜索。当模型提出查询时,系统会先检索出最相关的15个文档,然后使用cross-encoder模型ms-marco-MiniLM-L12-v2对这些文档进行重新排序,最终返回质量最高的10个结果。

这种设计模拟了真实搜索引擎的工作方式。系统提供两个主要工具:websearch功能返回最多10个相关文档的150字符预览,就像搜索引擎的结果摘要;scrape功能则可以获取特定文档的完整内容。这种设计鼓励模型学习高效的搜索策略,先通过预览筛选相关文档,再选择性地获取完整信息。

整个训练环境的设计非常巧妙。模型必须学会使用特定的XML格式进行工具调用:使用标签调用工具,标签显示结果,标签给出最终答案。这种结构化格式不仅便于训练过程中的解析和比较,也让模型能够发展出自主推理模式,而无需复杂的系统提示。

**三、三阶段渐进式训练策略**

Jan-nano的训练过程就像培养一个专业研究员,需要循序渐进地掌握不同技能。第一阶段是"工具使用基础"训练,模型在8K上下文长度下学习基本的工具操作和交互模式。这个阶段的奖励函数同时考虑多个目标:答案正确性、工具执行成功率、格式规范性和XML结构合规性。这就像教一个新员工学会使用办公软件,不仅要会操作,还要规范地操作。

第二阶段转向"答案质量专注"训练,同样在8K上下文长度下进行。在这个阶段,研究团队移除了工具执行和格式相关的奖励,将模型的注意力完全集中在提高答案准确性上。奖励函数主要关注答案正确性,同时保持最基本的XML结构指导。这种策略迫使模型在已经掌握基本工具使用技能的基础上,专注于如何更准确地回答问题。

第三阶段是"上下文扩展"训练,将模型处理长文本的能力从8K扩展到40K tokens。这个阶段的奖励函数只强调正确性和XML结构,类似于前一阶段,确保模型在适应扩展上下文长度的同时保持高质量响应。这种扩展让模型能够处理更复杂的多文档信息整合任务。

整个训练过程中,研究团队坚持使用"强制非思考"模式,防止模型产生过度思考行为。这个决定基于他们的重要发现:较大的模型往往会表现出过度思考的问题,通过不必要的额外过滤参数和过于复杂的搜索方法降低搜索性能。

**四、"过度思考"问题的惊人发现**

研究过程中最有趣的发现之一是"过度思考"现象。研究团队在开发过程中系统地比较了"思考模式"和"非思考模式"在不同模型规模下的表现,结果令人意外。

在4B参数规模下,思考模式达到71.0%的SimpleQA得分,而8B参数模型的思考模式却只有62.2%。这个反直觉的结果揭示了一个重要问题:模型规模越大,越容易陷入"分析瘫痪"的困境。大模型会应用时间过滤等复杂约束条件,反而排除了相关结果,导致幻觉响应。

研究团队提供了具体的对比案例来说明这个问题。在回答"训练了9/11劫机者中两人的荷兰商人和毒品贩子的名字是什么"这个问题时,4B模型采用直接搜索策略,成功检索到准确信息并正确识别出Rudi Dekkers。而8B模型却应用了年份过滤(filter year=2001),这个看似合理的限制实际上排除了包含正确答案的搜索结果,最终导致模型给出了错误的答案"Randy Weaver"。

类似的问题在另一个案例中也有体现。询问"1985年发布的科幻动画电视系列ThunderCats的制作经理是谁"时,4B模型通过简单搜索迅速找到正确答案Masaki Iizuka。8B模型同样因为应用年份过滤限制,只能在1985年的有限文档中搜索,最终无法找到相关信息,只能给出虚构的答案"Susan Cavan"。

这些发现表明,在配备了强大搜索工具的情况下,模型的"聪明才智"有时反而成为障碍。就像一个过度谨慎的研究员,设置了太多搜索限制条件,反而错过了最重要的信息源。基于这些观察,研究团队在后续版本中采用了强制非思考训练,显著提高了响应速度,同时保持了竞争性的准确率。

**五、智能体配置评估:不同框架下的性能表现**

为了全面评估Jan-nano的能力,研究团队测试了不同的工作流程范式。他们比较了传统的结构化工作流程(语言模型在预定义代码路径中运行)和智能体工作流程(语言模型自主指导行动并基于环境反馈做决策)。

在智能体工作流程中,模型保持对决策过程、工具选择和执行流程的完全控制权。研究团队测试了两种实现方式:来自smolagents的CodeAgent和基于LangGraph的ReAct。初期使用CodeAgent框架的评估显示了性能局限性,主要原因是模板格式不匹配。Jan-nano使用JSON工具调用模板进行训练,而CodeAgent需要Python代码生成,这是模型未经优化的格式。

随后使用LangGraph ReAct实现进行的评估显示了改进的性能。这个实现通过MCP服务器使用JSON格式的工具调用,与Jan-nano的训练模板完全匹配。在完整SimpleQA数据集上,Jan-nano在smolagents CodeAgent框架下达到76.2%的准确率,而在LangGraph MCP框架下达到80.7%的准确率,显示了4.5个百分点的性能差异。

这种相对适中的差异证明了模型适应不同工具调用格式的能力,同时保持竞争性能。性能差异主要反映了模板格式对齐的重要性:Jan-nano在与其训练格式直接匹配的JSON工具调用模板上表现更佳,而在需要Python代码生成的格式上稍逊一筹。

通过这个评估过程,研究团队认识到模型上下文协议(MCP)工具提供了最灵活的框架来复制真实的智能体应用用户体验。与施加严格工具集成和交互模式约束的传统评估框架不同,MCP支持多样化工具和服务的无缝集成,让模型能够以镜像实际部署场景的方式与真实世界系统交互。

**六、技术实现细节与模型架构**

Jan-nano的技术架构建立在对Qwen3-4B模型的深度改造之上。整个系统采用JSON-in-XML格式进行工具交互,这种设计在可靠性和灵活性之间找到了最佳平衡点。工具调用使用{"name": "tool name", "args": {params}}标签,结果显示在content标签中,最终答案使用content标签。

这种结构化XML格式在强化学习训练过程中发挥了重要作用,便于可靠的解析和比较,同时使模型能够发展出自主推理模式,只需要最少的系统提示。模型的128K上下文长度版本在SimpleQA基准测试中表现出比标准版本2.5个百分点的提升,达到83.2%的准确率,表明扩展上下文长度对这类基准测试是有益的。

Jan-nano目前主要针对英语进行了优化,需要适当的提示工程以获得最佳结果,这些优化已经集成到模型中。研究团队使用DAPO技术进行微调,这种方法利用可验证的奖励信号指导学习,而不需要大规模数据集。这种方法的优势在于它可以直接优化模型在特定任务上的表现,而不是依赖于通用的语言建模目标。

模型的部署考虑了消费级硬件的限制。4B参数的规模使得Jan-nano能够在普通GPU上运行,而不需要昂贵的企业级硬件。同时,模型提供了GGUF格式版本,进一步优化了部署效率和兼容性。这种设计理念体现了研究团队"效率优于规模"的核心思想。

**七、性能基准测试与对比分析**

在SimpleQA基准测试中,Jan-nano的表现令整个AI社区刮目相看。83.2%的准确率不仅超越了许多参数规模远超自己的模型,更重要的是展现了"小而精"设计理念的巨大潜力。相比之下,OpenAI的o1模型仅达到42.6%,Claude-3.7-Sonnet为50.0%,Gemini-2.5 Pro为52.9%。即使是ChatGPT-4.5也只有62.5%的表现。

最引人注目的对比是与DeepSeek-671B模型的比较。这个拥有6710亿参数的巨型模型在相同测试中达到78.2%的准确率,比Jan-nano低了5个百分点。这种对比就像一辆经济型轿车在燃油效率竞赛中击败了重型卡车,充分展示了优化设计的威力。

Jan-nano相比基线Qwen3-4B模型实现了24个百分点的显著提升,从59.2%提升到83.2%。这种提升主要归功于MCP集成和专门的工具使用训练。虽然研究团队承认不同MCP实现和评估设置可能影响直接比较,但这种幅度的改进仍然是令人印象深刻的。

Jan-nano 128K上下文变体比标准变体有2.5个百分点的适度改进,从80.7%提升到83.2%。这表明扩展上下文长度对这种基准测试是有益的,可能是因为模型能够处理更复杂的多文档信息整合任务。

这些性能结果挑战了AI开发中的传统假设。长期以来,业界普遍认为更好的性能需要更大的模型和更多的计算资源。Jan-nano的成功证明,通过聚焦特定能力(如工具使用和信息检索)而不是试图在模型中编码百科全书式知识,可以实现更高的效率和更好的结果。

**八、未来发展方向与局限性**

尽管Jan-nano取得了令人瞩目的成功,研究团队也坦率地承认了当前版本的局限性。模型目前在SimpleQA基准测试中达到83.2%的性能,未来的工作目标是通过改进量化方法和扩展工具集成能力,将性能提升到85-90%的范围。

语言支持是另一个需要改进的领域。Jan-nano主要针对英语进行了优化,对于其他语言的支持还需要进一步的研究和开发。这种局限性在全球化的AI应用环境中是一个需要解决的重要问题。

模型需要适当的提示工程才能获得最佳结果,虽然这些优化已经集成到模型中,但仍然需要用户具备一定的技术理解。未来的发展方向可能包括进一步简化使用方式,让普通用户也能轻松发挥模型的全部潜力。

研究团队的成功为AI开发开辟了新的道路。通过证明专门化训练可以让小型模型在特定任务上超越大型通用模型,Jan-nano为资源受限的研究团队和应用开发者提供了新的可能性。这种方法特别适合那些需要高效、可靠工具使用能力的应用场景。

从更广阔的视角来看,Jan-nano的成功可能标志着AI发展范式的转变。与其追求包罗万象的超大型模型,未来可能会看到更多针对特定任务优化的专门化模型。这种趋势不仅能够提高效率,还能降低AI技术的使用门槛,让更多人能够享受人工智能带来的便利。

说到底,Jan-nano最大的贡献可能不是它在某个基准测试中的优异表现,而是它向我们展示了一种全新的思考方式。在AI领域,有时候聪明的策略比暴力的计算更重要,专注的方向比全面的覆盖更有效。这个只有40亿参数的"小个子"模型,用它的表现告诉我们:智能不在于知道所有答案,而在于知道如何找到答案。对于那些希望在资源有限的情况下开发高效AI应用的研究者和开发者来说,Jan-nano提供了一个极具启发性的范例。有兴趣深入了解这项技术的读者,可以通过arXiv平台访问完整的技术报告,或在Hugging Face平台体验不同版本的模型。

Q&A

Q1:Jan-nano是什么?它和传统AI模型有什么不同? A:Jan-nano是Menlo Research开发的4B参数语言模型,最大特点是"会找信息"而不是"记住信息"。传统AI模型像百科全书,试图记住所有知识;Jan-nano更像图书管理员,精通如何快速找到任何需要的信息。

Q2:为什么Jan-nano能用更少参数击败更大的模型? A:关键在于专门化训练。Jan-nano放弃了通用知识存储,专注训练搜索和工具使用能力。就像专业选手在自己擅长的项目上能击败全能选手一样,专门化使它在特定任务上表现更出色。

Q3:普通人能使用Jan-nano吗?它有什么实际应用? A:可以。Jan-nano设计时考虑了消费级硬件限制,普通GPU就能运行。它特别适合需要实时信息检索的应用,比如智能客服、研究助手、实时问答系统等,能够准确回答需要搜索验证的复杂问题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-