生物医学研究中的一场悄然革命正在发生,而这场革命的核心角色,是我们已经越来越熟悉的大语言模型(LLMs)。来自弗吉尼亚大学的Guangzhi Xiong、Eric Xie、Corey Williams等研究团队最近发表了一篇重要论文,聚焦于大语言模型在生物医学假设生成中的真实性评估。这项研究发表于2025年5月20日的预印本平台arXiv上,题为《迈向可靠的生物医学假设生成:评估大型语言模型中的真实性和幻觉》。
想象一下,你是一位生物医学研究人员,面对浩如烟海的科学文献,你需要找出其中的规律并提出新的研究方向。这项任务不仅耗时,还需要极高的专业知识。大语言模型似乎为这一挑战提供了完美解决方案:它们可以分析大量文献,识别模式,并建议研究方向。听起来完美,对吗?
但这里有一个大问题:我们如何确定这些模型生成的假设是真实可靠的,而不是"幻觉"出来的看似合理但实际上错误的信息?这就像是让一个从未接受过专业训练的人给你提供医疗建议——他可能听起来很有道理,但你真的敢把健康托付给他吗?
弗吉尼亚大学的研究团队正是聚焦于解决这一关键挑战。他们提出了两个创新工具:TruthHypo(真实假设)和KnowHD(知识幻觉检测器)。这些工具就像是为科学家们提供的一个"真相检测器",帮助评估大语言模型生成的生物医学假设的真实性,并找出其中可能存在的"幻觉"成分。
一、研究背景:为何要解决大语言模型的"说谎"问题?
想象一下,如果你有一位才华横溢但有时会不自觉"编故事"的朋友。他知识渊博,能流畅地讨论各种话题,但偶尔会自信满满地分享一些并不准确的"事实"。这就是大语言模型面临的"幻觉"问题——它们有时会生成看似合理但实际上并不准确的内容。
在日常闲聊中,这种小小的不准确或许无伤大雅。但在生物医学研究这样的严肃领域,准确性就成了生死攸关的问题。想象一下,如果一个研究团队基于大语言模型提出的假设投入大量时间和资源进行研究,最后却发现这一假设完全没有科学依据,那将是多么巨大的浪费!
弗吉尼亚大学的研究团队意识到,虽然大语言模型在生物医学假设生成方面展现出巨大潜力,但其真实性评估却面临两大挑战:
首先,验证生成假设的准确性通常需要大量时间和资源。这就像要验证一个谣言是否属实,可能需要进行耗时的事实核查。
其次,大语言模型的"幻觉"问题可能导致生成看似合理但实际上错误的假设,这会严重影响其可靠性。这就像一个善于讲故事的人,能让虚构的事件听起来栩栩如生,让人难以分辨真假。
研究团队注意到,当前研究主要关注提高大语言模型生成假设的新颖性和多样性,而对真实性和基于已有知识的依据研究较少。这就像人们热衷于评价故事的创意和多样性,却忽略了故事的真实性。
为了解决这些挑战,研究团队提出了两个关键工具:TruthHypo和KnowHD。TruthHypo是一个综合基准,用于评估大语言模型生成真实生物医学假设的能力;而KnowHD则是一个基于知识的幻觉检测框架,设计用于评估这些假设的基础依据。
二、TruthHypo:如何打造一个可靠的生物医学假设生成评估基准?
想象你正在测试一系列天气预报员的准确性。你需要知道哪些预报员能够根据现有气象数据准确预测未来天气,而哪些只是在猜测。TruthHypo基准就扮演着类似角色,它帮助我们评估不同大语言模型在生物医学假设生成方面的真实性和准确性。
TruthHypo基准的数据来源于PubTator 3.0,这是一个综合性的生物医学知识图谱,包含从科学文章中提取的注释关系(也称为边)。为了模拟科学发现的时间进程,研究团队将图谱分为"已知"和"未知"两个子集:
"已知"子集包含2023年之前发表的论文中提取的关系,通过PMID(PubMed ID)≤ 36600000来识别。这就像是截至2023年科学界已经确认的知识。
"未知"子集则包含2024年之后发表的论文中提取的关系,通过PMID ≥ 38200000来识别。这代表了2024年之后的新发现,模拟未来科学研究的情况。
为确保两个子集之间没有重叠,研究团队移除了未知子集中与已知子集共享头尾实体的边。此外,为保证质量和有效性,只保留了在测试数据中被多篇文章发现的关系。这种过滤过程确保未知子集仅包含2024年之前不可获取的知识,模拟未来科学研究的条件。
在构建数据集时,研究团队专注于三种关键关系类型:
"化学物质与基因":这涉及药物与基因的互动,就像了解某种药物如何影响特定基因的表达。 "疾病与基因":这探讨疾病与基因之间的关联,例如某种基因突变如何导致特定疾病。 "基因与基因":这研究不同基因之间的相互作用,类似于了解一个基因的活动如何影响另一个基因。
这三种关系类型之所以被选中,是因为它们互补性强、注释详细,并且适合客观评估。为构建全面的分类任务,研究团队还增加了负面测试样例,评估大语言模型是否倾向于对现有知识库中缺乏直接关系的实体对做出错误的积极预测。最终数据集包含:
"化学物质与基因"任务:1209个实例 "疾病与基因"任务:268个实例 "基因与基因"任务:547个实例
在任务设计方面,TruthHypo基准包括三个任务,对应所选的关系类型。对于每个任务,输入是一个包含两个实体的假设生成查询,大语言模型需要基于可用知识和推理,假设它们之间的潜在关系。
为全面评估大语言模型性能,研究团队评估了它们在不同知识增强设置下生成假设的能力:
第一种设置依赖模型的参数知识——在预训练大型语料库期间编码在其参数中的信息。这评估模型的内在理解和推理能力。
第二种设置通过"已知"知识图谱中的结构化知识增强大语言模型。在这种方法中,从输入中映射关键实体到图中的节点,并探索连接这些节点的多跳链接链。这些链表示相关关系,被转换为文本描述并作为上下文提供给模型在假设生成中使用。
第三种设置利用检索增强生成(RAG)管道从生物医学文献中获取信息。使用BM25从PubMed语料库中检索相关文档。为保持与知识图谱时间分割的一致性,检索仅包括PMID ≤ 36600000的文章,模拟在特定时间点基于可用文献生成假设的过程。
最后,研究团队考虑了结合设置,其中来自图谱的结构化知识和从检索文献中的非结构化信息都用于支持假设生成。这种综合方法提供了更全面的上下文,使模型能够跨两种来源进行推理。
为评估生成的科学假设质量,研究团队采用了一系列互补指标,针对假设生成的不同方面:
链接级评估:关注精确度、召回率和F1分数。精确度衡量在所有假设连接中正确识别的连接比例,强调减少假阳性。召回率评估模型全面识别所有有效连接的能力,捕捉其对真阳性的敏感性。F1分数作为精确度和召回率的调和平均值,提供性能的平衡度量,结合预测准确性和有效连接覆盖率。
关系级评估:采用准确率来衡量生成的假设与地面真实关系标签匹配的频率。准确率通过考虑连接的存在和预测的关系类型来捕捉假设的整体正确性。
通过结合链接级和关系级评估,TruthHypo基准全面衡量了大语言模型生成的假设的真实性,评估大语言模型产生科学有效输出的能力。
三、KnowHD:检测大语言模型生成假设中的"幻觉"
我们都知道,谎言往往混杂着真相,这使得识别假信息变得困难。大语言模型生成的"幻觉"也是如此——它们往往将准确信息与不支持的声明混合在一起,使人难以分辨。这就是KnowHD(知识幻觉检测器)登场的地方。
KnowHD就像是一位细心的事实核查员,它检查大语言模型生成假设背后的推理过程,评估每个声明是否有足够的证据支持。它的工作方式是分析生成假设的基础依据,识别可能被"幻觉"出来的不可靠组件。
KnowHD的运作基于科学文献、知识图谱或两者的组合作为知识库。让我们来看看它的工作流程:
首先,每个假设及其推理链被分解为一组原子声明。这一步至关重要,因为假设通常由复合推理步骤组成,其中一些可能得到现有知识支持,而其他可能不然。将这些分解为原子声明允许更精细的评估,并能隔离不受支持的组件。这一步通过向大语言模型提示实现。
当使用科学文献作为知识库时,系统从PubMed语料库中检索与每个原子声明相关的文档,限制在2023年之前发布的文章(PMID ≤ 36600000)。BM25用于根据与声明的相关性对文档进行排名。为确保计算效率并专注于最相关信息,只保留排名最高的K个文档。
当使用知识图谱作为知识库时,声明的上下文从图结构中推导。对于一个声明,相关知识从图中提取,包括声明中提到的所有实体。
声明的基础依据基于给定上下文信息(来自文献、图谱或两者)是否能完全支持该声明来确定。如果连接的上下文集体蕴含该声明,则认为该声明是有依据的。
假设的整体基础依据计算为其原子声明中有依据声明的比例。
通过同时提供基于文献和基于图谱的上下文,KnowHD为幻觉检测提供了一个强大的框架,能够适应可用的知识来源。这种对原子声明的系统评估使得对假设基础依据的详细评估成为可能,识别不受支持的组件并提高大语言模型生成输出的可靠性。
四、实验结果:大语言模型在真实假设生成方面表现如何?
想象你正在举办一场烹饪比赛,参赛者需要根据有限的食材创造美味佳肴。类似地,研究团队测试了不同的大语言模型,看它们如何利用现有知识生成真实的科学假设。结果出人意料且发人深省。
研究团队选择了一系列不同类型和规模的模型进行测试。Llama-3系列代表开源大语言模型,而GPT-4系列则代表专有模型。从每个系列中,研究团队评估了两种不同规模的大语言模型(Llama-3.1-8B和Llama-3.1-70B,GPT-4o-mini和GPT-4o),以研究规模相关的性能差异。所有大语言模型都是在2024年之前可用的知识上训练的,防止其直接回忆假设生成的确切知识。
TruthHypo基准在四种不同设置下评估大语言模型:仅参数知识、参数知识加知识图谱、参数知识加文献,以及参数知识同时加知识图谱和文献。这些设置允许研究团队探索外部知识源对假设生成的影响。
在所有任务中,结果表明大多数大语言模型难以生成真实的科学假设,只有GPT-4o实现了超过60%的平均准确率。此外,链接级F1分数高于关系级准确率分数,这表明大语言模型可以识别实体之间的潜在连接,但往往无法准确预测具体关系。
对于来自同一系列但规模不同的模型,较大的大语言模型往往生成更有可能真实的科学假设。这可归因于两个主要因素:首先,较大的大语言模型通常表现更好,因为它们可以在参数中存储和利用更多知识;其次,不同规模的大语言模型处理外部知识的能力各不相同。
例如,当增加知识图谱和文献时,GPT-4o-mini的准确率仅提高了1.14%,而GPT-4o在相同条件下实现了更可观的5.14%增幅。这表明较大的大语言模型能更好地利用额外上下文推理真实的科学假设。比较Llama-3.1-8B和Llama-3.1-70B时也观察到类似趋势。
有趣的是,Llama-3.1-8B等较小模型在引入知识图谱和文献信息时有时会出现性能下降。这种下降可能源于有效整合内部和外部信息的挑战,可能会扰乱模型的推理过程。
研究团队还评估了生成假设的基础依据。结果表明,知识图谱和文献对基础假设的贡献不同。例如,使用文献作为支持知识库的KnowHD可以验证文献增强的"化学物质与基因"假设推理中76.30%的声明。然而,当基于添加到参数知识的知识图谱信息生成推理时,幻觉检测器很难验证,只有51.08%的声明是有依据的。结合知识图谱和文献产生最高的基础依据分数,有效利用两种来源的互补优势来识别有依据的声明并检测幻觉。
为进一步探索幻觉与真实性之间的关系,研究团队还将平均准确率与基础依据分数的函数关系进行了比较。结果表明,基础依据分数与假设真实性之间存在正相关。随着基础依据分数的增加,假设真实的可能性也增加。例如,GPT-4o-mini在"化学物质与基因"任务中在组合知识图谱+文献设置下实现了60.96%的平均准确率,但对于基础依据分数超过80%的假设,这一比例上升到72.77%。
为验证KnowHD在增强假设生成方面的效用,研究团队提示大语言模型为每个输入生成五个候选假设,并选择基础依据分数最高的一个作为最终输出。这种方法与两个基线进行了比较:贪婪搜索方法(使用大语言模型的贪婪下一个标记选择生成假设)和自一致性方法(基于多个预测的多数投票选择假设)。
如图4所示,基于基础依据的假设选择通常在大多数知识设置下优于贪婪搜索和多数投票方法。在仅参数知识设置中,多数投票方法实现了略高于基于基础依据选择的准确率(61.86%对59.83%)。然而,随着引入外部知识,基于基础依据的选择显示出对两个基线的一致改进。例如,在组合参数+知识图谱+文献设置中,当使用基于基础依据的选择时,GPT-4o-mini实现了63.44%的平均准确率,接近较大GPT-4o模型的性能。
这些结果强调了基础依据分数在外部知识被纳入的情景中的有效性,因为它们有助于识别更可能真实的假设。通过检测推理步骤中的幻觉并专注于有依据的假设,KnowHD为增强大语言模型生成的科学假设的可靠性和真实性提供了一个强大机制。
五、人类研究:KnowHD在开放式任务中的表现
为进一步评估KnowHD在选择真实假设方面有效性的通用性,研究团队在开放式假设生成任务上进行了实验。这些任务旨在评估KnowHD是否能够在更广泛、结构较少的生成场景中可靠地识别更有可能真实的假设。
对于这项分析,研究团队利用了Qi等人(2024年)引入的公开可用假设生成数据集,其中涉及基于给定背景信息生成自由形式假设。研究团队选择了GPT-4o-mini作为测试的大语言模型,并通过合并来自科学文献和知识图谱的外部知识增强其假设生成过程。模型被提示为每个输入生成五个不同的科学假设。然后这些假设由KnowHD评估,KnowHD基于它们与结构化(知识图谱)和非结构化(文献)知识源的一致性评估它们的基础依据。
为分析基础依据分数与假设真实性之间的关系,研究团队过滤生成的假设以创建具有对比基础依据水平的对。对于每个输入,研究团队识别了一个具有最高基础依据分数的假设和另一个具有最低分数的假设。研究团队保留了高基础依据分数比低分数大30%以上的对。这种过滤导致了54对假设,在基础依据水平上有显著差异。
为验证KnowHD的有效性,研究团队让两位领域专家注释每对假设(80%一致率),选择他们认为基于给定信息更可能真实的假设。此外,GPT-4o被提示分析相同的对并提供其判断。表4总结了这项注释研究的结果,报告了每组的选择比率,定义为在每组中被识别为更真实的假设比例。
结果表明,基础依据分数与假设感知真实性之间存在显著关系。具有较高基础依据分数的假设被人类专家和GPT-4o一致地更可能选为真实,如选择比率的实质性差异所示。这些发现突显了KnowHD在区分真实假设方面的效用,甚至在非结构化的开放式生成任务中也是如此。
通过有效利用基础依据作为标准,KnowHD提供了一个强大机制来提高大语言模型生成假设的可靠性,加强其促进现实世界科学发现过程的潜力。
六、研究意义与展望:大语言模型如何助力科学发现
弗吉尼亚大学研究团队的这项工作为我们勾勒了一幅令人兴奋的未来图景。想象一下,科学家们能够利用大语言模型作为值得信赖的合作伙伴,帮助他们浏览复杂的科学领域,发现新的研究方向,并生成高质量、有依据的假设,加速科学发现的步伐。
通过TruthHypo基准和KnowHD框架,研究团队为评估和提高大语言模型生成的科学假设的真实性提供了强大工具。这些工具不仅揭示了当前大语言模型在生成真实假设方面的局限性,还提供了通过基础依据评估来识别更可靠假设的方法。
研究结果表明,虽然大语言模型在生成看似合理的假设方面显示出巨大潜力,但它们仍然面临生成真实、科学有效假设的挑战。这突显了继续改进大语言模型推理能力的重要性,特别是在科学领域,准确性和可靠性至关重要。
KnowHD作为一种实用工具的价值在于其能够分析大语言模型的推理过程并评估假设的基础依据。这种能力可以帮助研究人员筛选大语言模型生成的大量假设,集中精力于那些更有可能经得起科学审查的假设。这不仅可以节省时间和资源,还可以提高大语言模型作为科学发现工具的整体效用。
通过开放数据和源代码(https://github.com/Teddy-XiongGZ/TruthHypo),研究团队为研究社区提供了资源,以进一步探索和改进大语言模型在科学假设生成中的使用。这种开放和协作的方法将加速这一领域的进步,最终导致更可靠、更有用的AI辅助科学工具。
展望未来,这项研究为改进大语言模型在科学环境中的应用奠定了基础。随着模型和评估方法的不断进步,我们可以期待大语言模型在科学发现过程中发挥越来越重要的作用,服务于研究人员,而不是取代他们。
归根结底,TruthHypo和KnowHD等工具代表了向更负责任、更可靠的AI辅助科学迈出的关键一步。通过解决大语言模型在生物医学假设生成中的真实性挑战,这项研究为利用AI的力量加速科学进步,同时维护科学方法的完整性和严谨性铺平了道路。
这项研究最终不仅关乎技术创新,还关乎确保这些创新以支持而非削弱科学探索的基本原则的方式部署。随着我们继续探索AI在科学中的应用,维持真实性、准确性和科学严谨性的平衡将至关重要,而本研究提供的工具和见解是朝着这一目标迈出的重要一步。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。