这项由上海人工智能实验室联合香港中文大学、悉尼大学、中科大、北航、复旦、上海交大、牛津大学等多家顶尖机构共同完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.21320v1),标志着科学AI领域的一个重要突破。研究团队由王一舟、唐晨等人领导,他们开发出了全球首个能够进行科学推理的大语言模型SciReasoner。
在科学研究的世界里,AI一直扮演着"聪明助手"的角色,能够快速处理数据、识别模式,但始终缺少一项关键能力:像真正的科学家那样进行逻辑推理。就好比一个记忆力超强的学生,能够背诵所有的化学公式和生物知识,却无法解释为什么某个实验会产生特定的结果,或者如何设计新的分子来治疗疾病。
上海AI实验室的研究团队意识到了这个问题的严重性。现有的科学AI模型虽然在单一领域表现出色,比如预测蛋白质结构或者分析化学反应,但它们就像专业技能很强却缺乏综合思维的专家,无法跨领域思考,更无法解释自己的推理过程。这就好比有一群分别精通数学、物理、化学的专家,但他们彼此无法交流,也无法共同解决需要多学科知识的复杂问题。
SciReasoner的诞生改变了这一切。这个模型不仅能够处理从DNA序列到化学分子式,从材料属性到蛋白质功能等各种科学数据,更重要的是,它能够像人类科学家一样进行逐步推理,解释每一个结论是如何得出的。研究团队在2060亿个科学相关的数据标记上训练了这个模型,然后通过4000万个科学问答样本进行了精细调优,最后还加入了强化学习机制,让模型学会了科学推理的思维模式。
这项研究的创新之处在于三个关键突破。首先是"自适应科学推理"能力,模型能够判断什么时候需要深度思考,什么时候可以直接给出答案。就像一个经验丰富的医生,面对简单的感冒症状会快速诊断,但遇到复杂病例时会仔细分析各种可能性。其次是"任务分组奖励机制",研究团队将不同的科学任务按照特点分组,让模型在学习过程中能够更好地掌握不同类型问题的解决方法。最后是"科学奖励软化技术",将原本非黑即白的评判标准转化为连续的评分系统,让模型的学习过程更加稳定有效。
一、从文字到分子:科学翻译的艺术
科学研究中最基础却也最关键的能力之一,就是在不同的表示方法之间进行准确转换。这就像是科学世界的"翻译官",需要在人类语言、化学符号、生物序列等各种"方言"之间自由切换。
在化学领域,同一个分子可以用多种方式来表示。比如阿司匹林,可以用SMILES字符串(一种计算机能理解的分子编码)表示为"CC(=O)OC1=CC=CC=C1C(=O)O",也可以用IUPAC名称(国际化学命名法)表示为"2-acetoxybenzoic acid",还可以用分子式"C9H8O4"来表示。这就好比同一个人可以用身份证号、姓名或者外貌特征来识别,每种方式都有其特定的用途和优势。
SciReasoner在这方面表现出了惊人的能力。在SMILES到IUPAC名称的转换任务中,它的准确率达到了56.63%,远超其他通用AI模型的4.70%。更令人印象深刻的是,在分子式转换任务中,它的准确率高达96.39%,几乎达到了完美水平。这种能力的重要性不言而喻,因为在实际的科学研究中,研究人员经常需要在不同的表示方法之间切换,而任何错误都可能导致实验失败或者错误的结论。
研究团队特别测试了一个复杂的例子:金属有机框架材料ZIF-8的命名。这是一种包含配位键的复杂化合物,其SMILES表示为"CC1=NC=C[N-]1.CC1=NC=C[N-]1.[Zn+2]"。SciReasoner成功地将其转换为正确的IUPAC名称"zinc;2-methylimidazol-3-ide",而其他先进的AI模型如GPT-5则产生了错误的结果。这个例子很好地说明了SciReasoner对化学结构深层理解的能力。
在蛋白质功能描述方面,SciReasoner同样表现出色。给定一个蛋白质序列,它能够准确描述该蛋白质的功能、定位和生物学意义。在多个测试数据集上,它的ROUGE-L评分(一种衡量文本相似度的指标)达到了0.82到0.99之间,显著超过了其他模型。
这种翻译能力的意义远不止于格式转换。它为科学研究提供了一个统一的交流平台,让不同背景的研究人员能够更容易地理解和使用彼此的研究成果。同时,它也为自动化的科学发现流程奠定了基础,因为只有当AI能够准确理解和转换各种科学表示时,它才能真正参与到科学研究的全过程中。
二、从文献中挖掘知识:AI读懂科学论文
科学研究的另一个核心环节是从浩如烟海的科学文献中提取有用信息。每天都有成千上万篇新的科学论文发表,即使是专业研究人员也很难跟上所有相关领域的最新进展。这就像是在一个巨大的图书馆中寻找特定的信息,需要既有敏锐的洞察力,又有高效的检索能力。
SciReasoner在科学知识提取方面展现了令人瞩目的能力。在化学实体识别任务中,它能够从复杂的科学文本中准确识别出化学物质的名称,F1分数(一种综合考虑准确率和召回率的评价指标)达到了0.92,远超其他通用模型的0.71。这意味着它不仅能找到文本中提到的大部分化学物质,而且很少出现误判。
更加复杂的是化学-蛋白质相互作用提取任务。这需要模型不仅要识别出文本中的化学物质和蛋白质,还要判断它们之间是否存在相互作用关系,以及这种关系的具体类型。SciReasoner在这个任务上的F1分数达到了0.83,而其他模型只有0.12。这种巨大的性能差距说明了SciReasoner对科学文本深层语义理解的优势。
在化学-疾病相互作用提取方面,SciReasoner的表现同样出色,F1分数达到0.97。这个任务要求模型能够从医学文献中识别出某种化学物质是否会导致或加重某种疾病,这对于药物安全性评估和毒理学研究具有重要意义。
除了信息提取,SciReasoner在科学问答方面也表现优异。在多项选择题任务中,它的准确率达到了99%,在开放式问答中的BertScore(一种基于语义相似度的评价指标)达到了0.87。这表明它不仅能够理解科学概念,还能够根据这些概念进行推理和回答问题。
这些能力的实际应用价值是巨大的。研究人员可以利用SciReasoner快速筛选相关文献,提取关键信息,甚至发现不同研究之间的潜在联系。这不仅能够大大提高研究效率,还可能帮助发现新的研究方向和假设。
三、预测未知属性:AI的科学直觉
科学研究的一个重要目标是预测未知。就像天气预报员根据当前的气象数据预测未来的天气一样,科学家们希望能够根据已知的信息预测分子的性质、材料的性能或者生物系统的行为。这种预测能力对于新药开发、新材料设计等应用领域至关重要。
SciReasoner在分子性质预测方面展现了强大的能力。在ESOL溶解度预测任务中,它的均方根误差(RMSE)仅为1.08,显著优于其他模型。溶解度是药物开发中的一个关键参数,因为药物必须能够在体内溶解才能发挥作用。准确预测溶解度可以帮助研究人员在早期阶段筛选出有前景的候选药物,避免在无效化合物上浪费时间和资源。
在脂水分配系数(LIPO)预测任务中,SciReasoner的RMSE为0.82,同样表现出色。脂水分配系数决定了药物在体内的分布和代谢,是药物设计中的另一个重要参数。这些预测能力使得SciReasoner能够为药物研发提供有价值的指导。
在材料科学领域,SciReasoner的表现同样令人印象深刻。在多个材料数据库的测试中,包括Materials Project、SNUMAT、JARVIS-DFT等,它在大多数任务上都取得了最佳或接近最佳的性能。这些数据库包含了各种材料的电子性质、机械性质、热力学性质等信息,准确预测这些性质对于新材料的设计和应用具有重要意义。
在生物学领域,SciReasoner在多组学性质预测方面也表现出色。在荧光蛋白预测任务中,它的Spearman相关系数达到了69.36,在蛋白质稳定性预测中达到了64.41。这些能力对于蛋白质工程和生物技术应用具有重要价值。
特别值得一提的是,SciReasoner在RNA相关的预测任务中也表现良好。在可编程RNA开关预测任务中,它的R²值达到了0.43,在siRNA效率预测中的混合评分达到了62.56。这些能力对于基因治疗和RNA药物开发具有重要意义。
这种预测能力的价值在于它能够大大加速科学发现的过程。传统上,研究人员需要通过大量的实验来测定分子或材料的性质,这不仅耗时耗力,还需要大量的资源。而AI预测能够在实验之前就提供有价值的指导,帮助研究人员优先考虑最有前景的候选物,从而提高研究效率。
四、分类识别:给科学对象贴上正确标签
除了预测连续的数值属性,科学研究中还经常需要将对象分类到不同的类别中。这就像是给图书馆的书籍分类一样,需要根据内容和特征将它们放到正确的类别中。在科学领域,这种分类能力对于理解和组织科学知识具有重要意义。
SciReasoner在分子分类任务中表现出了强大的能力。在溶解度分类任务中,它的准确率达到了87.79%,在毒性分类中达到了78.21%。这些分类能力对于药物安全性评估和环境风险评估具有重要价值。能够准确预测一个化合物是否有毒,可以帮助研究人员在早期阶段排除有害的候选药物,确保最终产品的安全性。
在生物学分类任务中,SciReasoner同样表现出色。在抗体-抗原结合预测任务中,它的准确率达到了70.89%,在蛋白质-蛋白质相互作用预测中达到了91.70%。这些能力对于免疫学研究和蛋白质功能研究具有重要意义。
特别有趣的是SciReasoner在跨物种的生物学任务中的表现。在人类启动子预测任务中,它的准确率达到了85.50%,在小鼠启动子预测中达到了88.30%。启动子是基因表达调控的关键元件,准确识别启动子对于理解基因调控机制和疾病发生机制具有重要意义。
在材料分类方面,SciReasoner在多个任务中都取得了优异的成绩。在Materials Project分类任务中,它的准确率达到了86.40%,在晶体系统分类中达到了95.60%。这些能力对于材料科学研究和新材料开发具有重要价值。
值得注意的是,SciReasoner不仅在单一领域的分类任务中表现出色,在跨领域的分类任务中也展现了良好的泛化能力。这说明它学到的不仅仅是特定领域的模式,而是更加通用的科学推理原理。
这种分类能力的实际应用价值是多方面的。在药物开发中,它可以帮助筛选安全有效的候选药物。在材料科学中,它可以帮助预测新材料的性能类别。在生物学研究中,它可以帮助理解基因功能和蛋白质相互作用。这些应用都能够显著提高研究效率,降低研发成本。
五、创造与设计:AI的科学创新能力
科学研究的最高境界不仅仅是理解现有的知识,更重要的是创造新的知识和设计新的解决方案。这就像是从理解食谱到创造新菜品的转变,需要的不仅是知识的积累,更需要创造性的思维和设计能力。
SciReasoner在科学序列生成和设计方面展现了令人瞩目的创新能力。在无条件分子生成任务中,它能够生成化学上合理且多样化的分子结构。这种能力对于新药发现具有重要意义,因为它可以帮助研究人员探索化学空间中的新区域,发现具有新颖结构和性质的化合物。
更加重要的是SciReasoner的条件生成能力。在给定特定约束条件的情况下,它能够设计满足要求的分子、蛋白质或材料。比如,如果研究人员需要一个具有特定溶解度和毒性特征的化合物,SciReasoner可以生成符合这些要求的候选分子。这种能力将传统的"试错"式研发转变为更加有针对性的"理性设计"。
在蛋白质设计方面,SciReasoner展现了设计功能性蛋白质的能力。在理性抗体设计(RAbD)任务中,它能够设计出能够结合特定抗原的抗体序列。这种能力对于治疗性抗体的开发具有重要价值,因为它可以大大缩短抗体发现和优化的时间。
在RNA设计方面,SciReasoner能够设计可编程的RNA开关。这些RNA分子可以根据环境条件的变化改变自己的结构和功能,在基因治疗和合成生物学中具有广泛的应用前景。能够设计这样的功能性RNA分子,展现了SciReasoner对复杂生物系统的深度理解。
在材料设计方面,SciReasoner能够根据期望的性能要求设计新的材料组成和结构。这种能力对于开发具有特定功能的新材料具有重要意义,比如高效的催化剂、新型的储能材料或者具有特殊光学性质的材料。
这种设计能力的实现依赖于SciReasoner对科学原理的深度理解。它不仅学会了现有分子、蛋白质和材料的模式,更重要的是学会了这些模式背后的科学原理。这使得它能够在设计新对象时考虑到各种物理和化学约束,确保设计结果的合理性和可行性。
研究团队特别强调了SciReasoner在约束感知设计方面的能力。这意味着它在设计过程中会考虑到实际的限制条件,比如合成的可行性、稳定性要求、安全性考虑等。这种约束感知能力使得SciReasoner的设计结果更加实用,更容易转化为实际的应用。
六、推理过程的透明化:AI如何思考
SciReasoner最令人印象深刻的特点之一是它能够展示自己的推理过程。这就像是一个学生不仅给出了正确答案,还详细解释了解题步骤一样。这种透明性对于科学研究具有极其重要的意义,因为科学的本质就是要求结论必须有可验证的推理过程。
研究团队展示了几个具体的推理案例,让我们能够窥见SciReasoner的思维过程。在一个材料性质预测任务中,当被要求预测某种材料的性质时,SciReasoner会首先分析材料的化学组成,然后考虑晶体结构的影响,接着评估电子结构特征,最后综合这些因素给出预测结果。整个过程就像一个经验丰富的材料科学家在分析问题一样,逻辑清晰,步骤明确。
在DNA任务中,当分析启动子序列时,SciReasoner会首先识别序列中的关键motif(特征序列),然后分析这些motif的组合模式,考虑它们在基因调控中的作用,最后基于这些分析给出关于启动子活性的预测。这种逐步分析的方法体现了对生物学原理的深度理解。
在蛋白质溶解度预测任务中,SciReasoner会分析蛋白质序列中氨基酸的组成,考虑疏水性和亲水性氨基酸的分布,评估可能的二级结构特征,然后基于这些因素预测溶解度。这种分析方法与专业的蛋白质化学家的思路高度一致。
这种推理能力的价值不仅在于提高了预测的准确性,更重要的是它使得AI的决策过程变得可解释和可验证。研究人员可以检查AI的推理逻辑,判断其是否合理,甚至从中学到新的见解。这种透明性是建立人类对AI系统信任的关键因素。
研究团队特别设计了一个"自适应推理"机制,让SciReasoner能够判断什么时候需要进行详细的推理,什么时候可以直接给出答案。对于简单的任务,比如基本的格式转换,模型会直接给出结果。但对于复杂的任务,比如多步骤的分子设计,模型会展开详细的推理过程。这种自适应能力使得SciReasoner既保持了效率,又确保了在需要时能够提供深度的分析。
七、跨学科整合:打破知识壁垒
传统的科学AI模型往往专注于单一领域,就像是各自为政的专家,缺乏跨领域的交流和整合。而现实中的科学问题往往需要多个学科的知识来解决。SciReasoner的一个重要创新就是实现了真正的跨学科整合,能够将化学、生物学、材料科学等不同领域的知识融合起来。
这种跨学科能力在药物发现中特别有价值。开发一个新药需要理解分子的化学性质、生物活性、代谢途径、毒性特征等多个方面的信息。SciReasoner能够综合考虑这些不同方面的因素,提供更加全面和准确的预测。比如,在预测一个化合物的药物活性时,它不仅会考虑分子的化学结构,还会考虑其与蛋白质的相互作用、在生物体内的稳定性等因素。
在材料科学中,SciReasoner能够将化学组成、晶体结构、电子性质等不同层面的信息整合起来,预测材料的宏观性能。这种整合能力使得它能够处理比单一领域模型更加复杂和现实的问题。
研究团队通过大量的实验证明了跨学科学习的优势。他们发现,在多个领域的数据上训练的SciReasoner比只在单一领域训练的模型表现更好,即使在各个单独的领域中也是如此。这说明不同科学领域之间存在着深层的共同原理,跨学科学习能够帮助模型更好地理解这些原理。
这种跨学科整合能力的实际意义是深远的。它不仅能够解决现有的科学问题,更重要的是可能帮助发现新的科学联系和规律。通过整合不同领域的知识,SciReasoner可能会发现人类研究者还没有注意到的跨领域模式和关联。
八、训练方法的创新:如何教会AI科学思维
SciReasoner的成功不仅在于其强大的能力,更在于研究团队开发的创新训练方法。这些方法解决了如何让AI学会科学推理这一根本性挑战。
首先是数据的精心设计。研究团队收集了2060亿个科学相关的数据标记,涵盖了科学文本、纯序列数据、序列-文本配对等多种类型。这就像是为AI准备了一个包含各种科学知识的巨大图书馆,让它能够从多个角度学习科学概念和原理。
特别重要的是"冷启动"训练策略。研究团队首先使用一个强大的教师模型生成高质量的推理链,然后用这些推理链来训练SciReasoner。这就像是让一个经验丰富的科学家先示范如何思考问题,然后让学生模仿和学习。这种方法确保了SciReasoner从一开始就学到了正确的推理模式。
在强化学习阶段,研究团队设计了创新的奖励机制。他们将科学任务分为三类:基于距离的奖励(用于预测任务)、基于匹配的奖励(用于检索和提取任务)、基于科学工具验证的奖励(用于需要专业工具验证的任务)。这种分类方法使得模型能够针对不同类型的任务学习相应的解决策略。
"奖励软化"技术是另一个重要创新。传统的强化学习往往使用简单的对错判断,但科学问题往往没有绝对的对错,而是有程度的差别。研究团队将这种二元判断转化为连续的评分,使得模型能够更好地学习和改进。
研究团队还实现了"自适应推理"机制,让模型能够判断何时需要详细推理,何时可以直接回答。这种机制通过将任务分为"即时"任务和"思考"任务来实现。对于需要推理的任务,模型会生成详细的思考过程;对于简单的任务,模型会直接给出答案。这种设计既保证了推理质量,又提高了效率。
九、性能评估:全方位的能力验证
为了全面评估SciReasoner的能力,研究团队设计了一个包含103个不同任务的综合评估体系。这些任务涵盖了科学研究的各个方面,从基础的格式转换到复杂的分子设计,从文献理解到性质预测。
在科学翻译任务中,SciReasoner在大多数任务上都取得了最佳性能。特别是在复杂的化学命名转换任务中,它的表现远超其他模型。这种能力对于科学数据的互操作性具有重要意义。
在知识提取和问答任务中,SciReasoner展现了强大的文本理解能力。它不仅能够准确识别科学实体,还能够理解它们之间的复杂关系。在开放式问答中,它的回答质量接近人类专家水平。
在性质预测任务中,SciReasoner在54个任务中取得了最佳性能,在101个任务中排名前二。这种广泛的优势表明了其预测能力的稳定性和可靠性。
特别值得注意的是,SciReasoner在跨领域任务中的表现尤为出色。这些任务需要整合多个学科的知识,正是SciReasoner的强项所在。这种跨领域能力使得它能够处理现实中更加复杂的科学问题。
研究团队还进行了详细的消融实验,验证了各个组件的贡献。他们发现,跨学科训练、推理机制、奖励设计等每个组件都对最终性能有重要贡献,证明了整个系统设计的合理性。
十、实际应用前景:改变科学研究的方式
SciReasoner的成功不仅仅是技术上的突破,更重要的是它为科学研究开辟了新的可能性。这个模型有潜力从根本上改变科学家们进行研究的方式。
在药物发现领域,SciReasoner可以大大加速新药开发的过程。传统的药物开发需要10-15年的时间和数十亿美元的投资,其中很大一部分时间和资源花费在筛选和优化候选化合物上。SciReasoner能够快速预测化合物的各种性质,帮助研究人员在早期阶段就排除不合适的候选物,专注于最有前景的化合物。
在材料科学中,SciReasoner可以帮助设计具有特定性能的新材料。无论是更高效的太阳能电池材料、更轻强的结构材料,还是更好的储能材料,SciReasoner都能够根据性能要求提供设计建议,大大缩短材料开发的周期。
在生物技术领域,SciReasoner的蛋白质和RNA设计能力可以推动基因治疗、酶工程、合成生物学等前沿技术的发展。它能够设计具有特定功能的生物分子,为治疗疾病和改善生活质量提供新的工具。
除了直接的应用,SciReasoner还可能改变科学教育和研究培训的方式。学生和年轻研究人员可以通过与SciReasoner的交互来学习科学推理的方法,理解复杂科学问题的分析思路。这种互动式的学习方式可能比传统的教学方法更加有效。
在科学文献分析方面,SciReasoner可以帮助研究人员快速理解和整合大量的科学文献,发现不同研究之间的联系,甚至识别出可能被忽视的重要发现。这种能力对于保持对快速发展的科学领域的了解具有重要价值。
当然,SciReasoner也面临着一些挑战和限制。虽然它在许多任务上表现出色,但在某些特定领域或特殊情况下,它的性能可能还不如专门的模型。此外,作为一个AI系统,它的预测和建议仍然需要人类专家的验证和判断。
研究团队已经将SciReasoner的模型、训练数据和评估代码开源,这意味着全世界的研究人员都可以使用和改进这个系统。这种开放的态度将加速SciReasoner的发展和应用,也将推动整个科学AI领域的进步。
说到底,SciReasoner代表了AI在科学领域应用的一个重要里程碑。它不仅展示了AI理解和推理科学知识的能力,更重要的是展示了AI参与科学发现过程的潜力。虽然它还不能完全替代人类科学家,但它已经成为了一个强大的科学研究助手,能够帮助人类更快、更好地探索科学的奥秘。
随着技术的不断发展和完善,我们有理由相信,像SciReasoner这样的AI系统将在未来的科学研究中发挥越来越重要的作用,帮助人类解决更多复杂的科学问题,推动科学技术的快速发展。这不仅会加速科学发现的速度,也可能帮助我们发现全新的科学原理和现象,开启科学研究的新时代。
Q&A
Q1:SciReasoner与其他AI模型相比有什么特别之处?
A:SciReasoner最大的特点是具备科学推理能力,能像人类科学家一样展示逐步的思考过程。它还能跨越化学、生物学、材料科学等多个领域工作,而不是只专注于单一领域。更重要的是,它能在需要时进行深度推理,在简单任务时直接给出答案,实现了自适应的工作模式。
Q2:SciReasoner在实际科学研究中能发挥什么作用?
A:SciReasoner可以在多个方面协助科学研究:在药物发现中预测化合物性质,筛选有前景的候选药物;在材料科学中根据性能要求设计新材料;在生物技术中设计功能性蛋白质和RNA;在文献分析中快速提取关键信息和发现研究联系。它就像一个全能的科学助手,能大大提高研究效率。
Q3:普通研究人员如何使用SciReasoner?
A:研究团队已经将SciReasoner开源,研究人员可以通过GitHub和Hugging Face平台获取模型、数据和代码。由于它支持103种不同的科学任务,从分子性质预测到文献分析,不同领域的研究人员都能找到适合自己需求的功能。使用时只需要按照相应格式输入数据,模型就能提供预测结果和推理过程。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。