近期,南洋理工大学、上海人工智能实验室等机构的研究团队发布了一项引人注目的研究成果。由Zonglin Yang、Wanhao Liu、Ben Gao等学者共同完成的这项研究,以"MOOSE-Chem2: 通过层级搜索探索大语言模型在精细化科学假设发现中的极限"为题,发表于arXiv预印本平台(arXiv:2505.19209v1),日期为2025年5月25日。这项研究为科学发现领域带来了全新的思路和方法。
你是否曾经想过,人工智能能否像真正的科学家一样提出有价值的科学假设?不仅仅是粗略的想法,而是那种可以直接在实验室里操作的详细方案?这正是此项研究要解决的核心问题。
想象一下科学研究中的两种假设。一种是粗略的想法,比如"合成三维铜层级结构";另一种则详细得多:"铜箔在室温下浸泡在0.5摩尔过硫酸铵和2摩尔氢氧化钠的溶液中15分钟进行化学氧化,形成五边形层级氧化铜纳米结构。"显然,第二种假设为科学家提供了明确的实验路径,而不仅仅是模糊的方向。
现有的大语言模型(LLM)虽然在生成科学假设方面展现出潜力,但它们往往只能生成粗略的想法,缺乏关键的方法细节和实验配置。这就像给厨师一个"做一道美味意大利面"的指示,而不是提供详细的食谱和烹饪步骤。没有具体指导,即使是经验丰富的厨师也难以精确复制一道复杂的菜肴。
研究团队将这一挑战定义为"精细化科学假设发现"任务,并将其框架化为一个组合优化问题。他们探索了四个基本问题:1)如何最大化利用LLM的内部启发式机制来制定它自己认为最有前景的精细化假设;2)LLM判断更好的假设是否与实际专家创建的假设更加一致;3)使用多样化但能力相似的LLM集成是否比反复使用其中最强大的单一模型效果更好;4)相同LLM的多个实例集成是否比单一LLM实例提供更可靠的评估信号。
为了解决这些问题,研究团队提出了一种名为"层级启发式搜索"(HHS)的方法。这种方法就像是一位科学家的思考过程:先考虑大方向,然后逐步细化到具体细节。具体来说,它将假设生成过程分解为多个层级,从反应机制、通用概念和组分,一直细化到特定组分的完整细节和实验条件。
想象你在一座巍峨的山脉中寻找最高峰。如果你直接在复杂地形中盲目搜索,很容易迷失在众多的小山峰和峡谷中。但如果你先在航拍地图上找到最高的山脉区域,然后再逐渐缩小搜索范围到特定山峰,最后才精确定位山顶,这样的搜索会高效得多。层级启发式搜索正是采用了这种策略,通过在不同抽象层级上的逐步搜索,使模型能够更有效地探索假设空间。
研究者们还特别注重构建了一个防止数据污染的基准测试集。他们收集了2024年1月后发表的化学论文,确保这些数据不在他们使用的GPT-4o-mini(数据截止日期为2023年10月)的训练数据中,从而保证了评估的公正性。
实验结果令人振奋。通过层级启发式搜索生成的假设在专家评估中显著优于基线方法,并且与实际专家提出的假设具有更高的一致性。具体来说,HHS方法在回忆专家假设关键成分方面比简单贪婪搜索和带自洽性的贪婪搜索分别高出23.8%和8.9%。此外,实验还表明,使用最强大单一模型的多个实例组成的集成比使用多样化但能力相似的不同模型的集成效果更好。
这项研究不仅展示了人工智能在科学发现中的潜力,更提供了一种系统化的方法来最大化利用LLM的内部知识和推理能力。通过层级搜索的方法,研究团队成功地让AI从粗略的研究方向出发,逐步细化出可直接实施的精细科学假设,这就像是为科学家们提供了一个强大的思想伙伴,能够协助他们探索更广阔的科学领域。
一、精细化科学假设发现:一个新的AI辅助科学研究任务
当我们谈论科学假设时,可以把它想象成一张地图。粗略的假设就像是一张只标注了主要城市的国家地图,而精细化假设则像是一张详细的城市街区图,标注了每条街道、每个路口甚至交通信号灯的位置。显然,对于实际需要在城市中导航的人来说,后者更有价值。
在科学研究中,粗略假设可能是"合成三维铜层级结构",这只提供了研究方向,就像告诉你"去纽约"。而精细化假设则详细描述:"铜箔在室温下浸泡在0.5摩尔过硫酸铵和2摩尔氢氧化钠的溶液中15分钟进行化学氧化,形成五边形层级氧化铜纳米结构。"这就像给你提供了具体地址、路线和到达时间。
研究团队将精细化科学假设发现任务定义为:给定研究背景(包括研究问题和已有方法)和粗略假设方向,生成一个精细化假设。这个过程并不简单,因为它需要从海量可能的选择中挑选并组合一套连贯的具体细节。更具挑战性的是,科学假设发现本质上是一个域外问题:假设在提出时,其正确性基本上是未知的。
就像厨师在尝试创新菜品时,没有确切的食谱可循,只能依靠经验和直觉来判断哪些配料和烹饪方法可能产生美味结果一样,科学家在提出假设时也依赖启发式思考和专业知识来确定最有前景的研究方向。
研究团队关注的是发现前的阶段,模拟人类科学家在经验测试前如何利用启发式和领域知识迭代搜索假设空间,找出他们自己判断为最有前景的假设。随着大语言模型在启发式推理和科学知识理解方面逐渐接近人类科学家的能力,研究团队提出了一个核心问题:如何最大化利用LLM的内部启发式来制定它自己认为最有前景的精细化假设?
这可以概念化为一个假设空间,其中每一点沿输入维度(可能是多维的)代表一个候选假设,每个点基于LLM的内部启发式被赋予一个奖励值。这定义了假设空间上的奖励景观,最高峰对应于LLM内部判断为最有前景的假设。这样,问题就转化为如何在这个景观中找到更强的局部最优点,甚至是全局最优点,从而引出LLM能生成的最佳精细化假设。
二、层级启发式搜索:让复杂问题变得可解
想象你在玩一个巨大的拼图游戏,这个拼图有数千块碎片,而且没有参考图片。如果你随机尝试每一块碎片与其他碎片的组合,那将是一个令人望而生畏的任务。但如果你先将碎片按颜色分类,再按边缘形状分组,然后从拼图的边框开始,逐步向内拼接,任务就会变得可管理得多。
这正是研究团队提出的层级启发式搜索(HHS)方法的核心思想。他们将精细化科学假设生成这一复杂问题分解为多个层级,每个层级关注不同抽象度的细节。这种方法模拟了一个有限能力的推理主体(无论是人类还是LLM)如何导航假设空间:首先探索更高层次的概念空间,然后逐步细化到更具体的细节空间。
具体来说,研究团队与领域专家(博士级化学家)合作,为化学领域设计了一个五层的层级结构:
第一层:反应机制,描述反应在概念层面如何进行,关注电子流、键的形成和断裂以及任何中间体或过渡态。这就像是反应的理论"蓝图",解释了为什么反应有效。
第二层:所需的一般概念或一般组分,确定所需的试剂或官能团类型(如"强酸"、"路易斯碱"、"活化的芳香环"),而不指定具体化学物质。这概述了机制进行所需的更广泛角色。
第三层:一般概念的特定组分,从一般类别缩小到特定物质(如强酸用"浓盐酸",芳香环用"苯")。这使假设可测试,指定了哪些化学物质满足这些角色。
第四层:特定组分的完整细节,提供确切的结构或分子信息,如SMILES字符串、IUPAC名称、纯度或CAS编号。这些细节确保了清晰度和可重复性,使研究人员确切知道使用哪些物质。
第五层:实验条件,指定实际设置——温度、压力、溶剂系统、反应时间、气氛和任何后处理程序。这最后一层描述了如何在实验室环境中进行反应。
在每个层级,LLM都扮演双重角色:既是提议生成器,提出候选编辑来在假设空间中形成新假设;又是梯度提供者,通过自身的内部启发式判断新假设是否优于当前假设。
这种层级方法有两个关键优势:一是每个层级只需在特定子空间而非完整候选集中搜索,大大缩小了搜索空间;二是在每个层级上,特别是在更高、更抽象的层级上,平滑了奖励景观,使得更容易收敛到更强的局部最优解。
从频率域来看,这种层级抽象可以解释为一种低通滤波,衰减了景观中的高频成分,使搜索过程更加稳定和高效。就像从高空俯瞰地形可以帮助识别主要山脉而忽略小丘和沟壑一样,层级方法允许模型在更平滑的高层景观中确定有前景的区域,然后逐步细化到更详细、更复杂的低层空间。
三、实验设计:严格验证四个核心问题
为了全面评估他们的方法,研究团队设计了一系列严格的实验来验证四个核心问题。他们首先构建了一个基准测试集,这一点尤为重要,因为当前没有现成的基准提供足够详细的科学假设以直接进行实验评估。
为了避免数据污染,研究团队扩展了TOMATO-Chem数据集,该数据集包含51篇在2024年1月后在《自然》和《科学》等顶级期刊上发表的化学论文。每个条目都有研究背景和粗略假设的注释,而对于本研究,两位博士级化学家进一步注释了这些例子的精细化假设,为评估提供了参考标准。所有实验均使用GPT-4o-mini进行,该模型的训练数据截止日期为2023年10月,确保了基准数据不在模型的训练范围内。
研究团队将他们的层级启发式搜索(HHS)方法与两个强大的基线进行了比较:贪婪搜索和带自洽性的贪婪搜索。后者作为HHS的简化版,移除了层级分解,直接从完整候选集D而非层级特定子集D(i)中采样每个编辑d。自洽性机制类似于HHS中的重组模块,试图集成多个局部最优解以找到更好的解。贪婪搜索进一步简化,完全禁用重组模块,直接采用首个找到的局部最优解作为输出。
第一个问题(Q1)关注如何最大化利用LLM的内部启发式来找到它自己判断为最有前景的精细化假设。这被框架为一个优化问题:给定粗略假设作为起点,仅依靠单个LLM,如何导航假设空间以接近奖励景观的全局最优点?在这种设置下,LLM既生成候选编辑,也通过自身的内部启发式(如成对比较)判断新假设是否改进了当前假设。
虽然无法确定一个找到的局部最优点是否代表全局最优点,但研究团队可以在相同评估框架下比较不同方法找到的局部最优点,从而检查哪一个更接近全局最优点。
第二个问题(Q2)探讨LLM判断更好的假设是否与真实假设表现出更强的一致性。研究团队间接评估了这一点,比较HHS(能够找到更高LLM内部局部最优点)发现的假设与基线方法找到的假设的回忆率。结果显示,HHS生成的假设始终比基线方法的假设实现更高的回忆率,这为LLM内部奖励信号在指导精细化假设发现中的可靠性提供了经验支持。
第三个问题(Q3)考察使用多样化但能力相似的LLM集成定义奖励景观是否优于使用该组中最强大LLM的多个实例。研究团队设计了三种实验设置:混合委员会(由三种不同LLM——GPT-4o-mini、Gemini-1.5-flash和Claude-3-haiku组成)、GPT-4o-mini委员会(由三个GPT-4o-mini实例组成)和Gemini-1.5-flash委员会(由三个Gemini-1.5-flash实例组成)。结果表明,由最强模型重复实例组成的集成始终优于等规模的多样化模型集成,这表明在这种环境下,峰值模型质量比架构多样性更重要。
第四个问题(Q4)研究相同LLM的多个实例集成是否比单一实例提供更有效的奖励景观。与Q3比较不同模型的集成不同,Q4通过控制模型身份来隔离仅聚合效应。研究表明,即使是相同的LLM,当独立采样并通过总结聚合时,也会产生一个更好地捕捉新颖性而不牺牲整体质量的奖励信号,凸显了优化假设发现的一个微妙但重要的维度。
四、实验结果:层级方法的显著优势
研究结果令人印象深刻,清晰地表明了层级启发式搜索(HHS)方法相对于基线方法的显著优势。在LLM自评估和专家评估中,HHS一致地发现了更高质量的局部最优解。
在与贪婪搜索的比较中,HHS在整体评估中赢得了73.53%的对比,仅输掉7.84%,其余为平局。专家评估结果更为显著,HHS赢得76.47%的对比,仅输掉7.84%。当与更强大的带自洽性的贪婪搜索比较时,HHS仍然保持明显优势,在整体评估中赢得53.43%,输掉12.75%,在专家评估中赢得74.51%,输掉7.84%。
这些结果表明,层级搜索的价值不仅在于减少每步搜索的空间(从D到D(i)),更在于其在假设空间中的平滑效应,特别是在更高的抽象层级上。这种平滑效应减少了早期收敛到次优局部最优解的风险,有助于向奖励景观中的更高峰前进。
在具体的评估维度上,HHS在有效性、详细性和可行性方面表现尤为突出。唯一相对平衡的维度是新颖性,这可能反映了一种自然权衡:高度新颖的假设往往涉及更大的科学风险和不确定性。类似地,在详细性和可行性之间也存在权衡,因为增加的具体性可能引入程序复杂性或冗余,降低实验可行性。
对于问题Q2,研究团队评估了发现的假设与专家注释的参考假设的一致性。他们采用了基于LLM的评估,量化发现的假设如何回忆参考假设的关键化学组分。结果显示,HHS方法在软回忆(计算得分大于0的组分,除以组分总数)和硬回忆(原始0-3分数之和,除以可能的最高分数)方面都显著优于基线方法。具体来说,HHS实现了40.40%的软回忆和23.00%的硬回忆,而带自洽性的贪婪搜索分别为31.50%和17.70%,简单贪婪搜索仅为16.60%和9.90%。
这一结果提供了令人信服的证据,证明LLM内部判断为更好的假设确实与专家创建的假设更加一致,支持了将LLM的内部启发式作为精细化假设发现指导信号的有效性。
对于问题Q3和Q4,实验结果也提供了有价值的见解。在Q3的评估中,GPT-4o-mini委员会一致地优于混合委员会,而混合委员会又优于Gemini-1.5-flash委员会。这表明,使用最强单一模型的重复实例比结合不同能力相似的模型提供更有效的梯度信号。
在Q4的评估中,比较了使用三个相同GPT-4o-mini实例的HHS-3与仅使用单个实例的HHS-1。虽然整体质量、有效性和详细性大致相当,但HHS-3在新颖性方面表现更好,而HHS-1在可行性方面略有优势。这种权衡源于集成中的总结步骤,它不是简单的多数投票,而是指示LLM评估所有三个视角的相对推理强度,倾向于最令人信服的论点。这种设置隐式地允许模型表达和验证少数支持但推理良好的观点,使探索更具创造性或非常规的假设成为可能。
五、层级方法背后的理论基础:平滑的奖励景观
研究团队不仅提出了一个实用的方法,还提供了扎实的理论基础来解释为什么层级方法能够有效工作。关键的洞察是,在更高层级上评估候选假设的性能可以看作是对其低层子空间的聚合估计——近似平均值或软最大值。
让我们通过一个具体例子来理解这一点。当评估像"层级三维铜"这样的粗粒度概念时,LLM可能会隐式考虑多种细粒度结构变体,其中一些非常相关,另一些效果不佳。研究团队假设LLM的高层评估会聚合这些结果,根据在更广分布中的潜力对有前景的变体进行加权,以产生对概念总体潜力的估计。
基于这一观察,层级抽象通过衰减细粒度空间中的局部不规则性平滑了更高层级的奖励景观,因为更高层级上的点的性能可以解释为其对应低层子空间性能的近似聚合或平均值。这一平滑效应可以在频率域中解释为一种低通滤波,衰减了景观的高频成分,在空间频率域中产生截止。
因此,直接搜索平坦、非层级的空间往往高度崎岖和非凸,容易过早收敛到次优局部最优解。相比之下,引入层级结构逐步平滑了景观,使优化更加稳定和高效,特别是在更高层级上。
这种平滑化效应解释了为什么HHS能够一致地找到比平面搜索策略更高质量的局部最优解。通过首先在更平滑的高层景观中确定有前景的区域,然后逐步细化到更详细的层级,HHS有效地导航了复杂的假设空间,避免了在早期搜索阶段被次优局部最优解所困。
六、研究意义与未来展望
这项研究的贡献超越了具体的方法创新,它开辟了一个新的研究方向,系统地探索如何利用大语言模型进行精细化科学假设发现。通过将这一任务形式化为组合优化问题,并提出有效的解决方案,研究团队为未来的AI辅助科学发现奠定了基础。
研究的主要贡献包括:首先,引入并形式化了精细化科学假设发现作为组合优化问题,并发布了一个2024年后的化学基准测试集,配有专家注释的精细化假设,专门设计用于防止当前LLM的数据污染。其次,系统地调查了四个基础研究问题,探索了LLM在科学假设发现中的潜力和局限性。第三,提出了一种层级搜索方法,在概念抽象层级上平滑了奖励景观,减少了搜索复杂性,使得发现更高质量的假设成为可能。
这项研究的结果表明,随着LLM能力的提升,它们在科学发现中的作用将会越来越重要。通过最大化利用LLM的内部启发式和知识,研究人员可以开发出更强大的工具来辅助科学发现过程,特别是在从粗略研究方向到可实施的精细假设的转化阶段。
未来的研究方向可能包括:进一步优化层级搜索策略,探索如何将其扩展到化学之外的其他科学领域,以及研究如何将专家反馈集成到搜索过程中,进一步提高生成假设的质量和相关性。
虽然HHS方法在发现高质量局部最优解方面表现出色,但它不能保证收敛到全局最优解。解决这一限制仍然是未来研究的开放方向。此外,探索不同模型架构和规模的影响,以及评估在更广泛的科学问题上的泛化能力,也是值得进一步调查的问题。
总的来说,这项研究代表了AI辅助科学发现领域的重要进展,展示了如何通过层级搜索方法最大化利用LLM的能力来生成精细化的科学假设。随着技术的不断发展,这种方法有望成为科学家工具箱中的重要组成部分,帮助加速科学发现和创新。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。