微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 DoctorAgent-RL:广州国家实验室研发的多智能体协作式强化学习医疗对话系统,让AI医生问诊更像真人医生

DoctorAgent-RL:广州国家实验室研发的多智能体协作式强化学习医疗对话系统,让AI医生问诊更像真人医生

2025-05-29 13:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 13:20 科技行者

近日,来自中国科学院大学高等交叉科学学院的冯轶春、中国科技大学电子工程与信息科学系的王嘉伟、广州国家实验室的周璐以及中国科学院上海营养与健康研究所的李奕学等研究人员在预印本平台arXiv上发表了题为《DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue》的研究论文。这项研究提出了一种名为DoctorAgent-RL的多轮医疗对话系统,旨在解决当前AI医疗问诊系统面临的关键挑战。有兴趣深入了解的读者可以通过GitHub(https://github.com/JarvisUSTC/DoctorAgent-RL)获取更多信息。

你是否曾经遇到过这样的情况:使用AI医疗助手咨询健康问题时,必须一次性把所有症状描述清楚,否则得到的建议往往模糊不清?这正是当前大型语言模型(LLMs)在医疗领域应用的核心痛点。虽然ChatGPT、LLaMA和ChatGLM等模型在生物医学问答方面表现出色,但它们在实际临床咨询中仍面临严峻挑战。

想象一下真实的医生问诊场景:患者走进诊室,医生不会只听患者说一句话就给出诊断结果,而是会提出一系列针对性问题,逐步收集关键信息,然后才能做出准确判断。然而,现有的AI医疗系统大多采用"一次性回答"模式,要求患者必须在单轮对话中完整描述所有症状。当患者提供的初始描述模糊或片面时,AI系统基于不完整信息生成的诊断建议往往缺乏针对性,甚至可能带来潜在风险。

而那些尝试引入多轮对话能力的系统,受限于静态数据驱动的范式,缺乏灵活性和泛化能力,难以智能地提取关键临床信息。就像一个只会按照固定剧本提问的实习医生,无法根据患者的具体情况调整提问策略。

为了解决这些限制,研究团队提出了DoctorAgent-RL系统,这是一个基于强化学习的多智能体协作框架,将医疗咨询建模为动态决策过程。就像训练一位真正的医生需要不断实践和调整问诊技巧一样,DoctorAgent-RL通过"医生智能体"与"患者智能体"之间的多轮互动,在强化学习框架内持续优化其提问策略。

这个系统就像是一个能够不断学习和改进的AI医生。医生智能体根据从患者那里收集到的信息,动态调整其信息收集路径,就像真实医生会根据患者的回答调整后续提问一样。与传统方法不同,DoctorAgent-RL不是简单地模仿现有对话数据中的模式,而是通过强化学习机制,自主发展与临床推理逻辑相符的互动策略。

值得一提的是,研究团队构建了MTMedDialog,这是首个能够模拟患者互动的英文多轮医疗咨询数据集。这个数据集就像是AI医生的"临床实习基地",为多智能体系统在动态临床推理场景中的训练和评估提供了可能。

实验结果表明,DoctorAgent-RL在多轮推理能力和最终诊断性能方面均优于现有模型,展示了在辅助临床咨询方面的实际价值。这项突破性研究为未来的AI医疗系统指明了新方向:从被动回答转向主动询问,从单轮交互转向多轮对话,最终实现更接近真实医生水平的诊断能力。

一、研究背景:为什么我们需要会主动提问的AI医生?

想象你生病去看医生的场景:你可能会说"我最近感觉不舒服",而医生不会立即给你开药,而是会问:"具体哪里不舒服?什么时候开始的?有没有发热?"等一系列问题,通过这种多轮交流,医生才能逐步锁定病因并给出准确诊断。

然而,当前的AI医疗系统却像一个只会"听"不会"问"的医生。虽然ChatGPT等大型语言模型在医学知识方面表现出色,但它们采用的是被动的单轮互动模式,相当于要求患者一次性描述所有症状。这就像要求患者自己当半个医生,把所有重要信息都想到并说出来。

研究者指出,这种模式与临床诊断的实际需求存在根本矛盾。在现实中,复杂的医疗状况通常需要多次有针对性的询问才能逐步明确情况。这种互动模式的不匹配导致了两个系统性限制:

首先,用户往往提供模糊或片段化的初始描述,而模型基于不完整信息生成的诊断建议往往缺乏针对性,甚至可能带来潜在风险。这就像医生只听了你说"我不舒服",就立即给你诊断为"普通感冒"一样不负责任。

其次,那些尝试通过监督学习引入多轮对话能力的方法,受限于静态对话数据集的模式模仿,无法建立动态决策机制来权衡信息价值与对话效率。它们更像是按照固定剧本提问的机器人,而非能根据情况灵活调整策略的真实医生。

DoctorAgent-RL的创新之处在于,它将临床推理重新构建为马尔可夫决策过程(MDP),一种处理不确定性条件下的动态决策问题的数学框架。这就像教会AI医生思考"下一个最有价值的问题是什么",而不是简单地跟随预设的提问模板。

二、DoctorAgent-RL:多智能体协作框架如何模拟真实医患对话?

DoctorAgent-RL系统就像是一个精心设计的医学模拟训练中心,由三个核心组件组成,相互配合形成完整的诊疗闭环:

首先是"患者智能体",它基于大型语言模型,能够生成病理上一致的响应,同时模拟真实世界沟通中的多样性。想象它就像一个"标准化病人",经过特殊训练,能够根据预设的疾病情况对医生的问题做出符合实际的回应,但不会过度配合,保持了真实患者描述症状时的自然多样性。

其次是"医生智能体",它初始通过克隆真实咨询记录中的医疗操作进行训练,然后通过强化学习进一步优化,掌握有效的提问策略。这就像一位医学院学生,先通过观察资深医生的问诊方式学习基本技巧,然后在实践中不断调整和完善自己的问诊方法。

最后是"咨询评估器",它基于诊断准确性、患者信息响应性和问题标准化等多维度提供综合奖励。这相当于一位经验丰富的医学教授,站在旁边观察医学院学生的问诊过程,并给予专业反馈和指导。

DoctorAgent-RL通过奖励驱动的策略优化重新定义了诊断过程:医生智能体在强化学习框架内不断优化其提问策略,通过与患者智能体的多轮互动获得即时反馈,并根据咨询评估器提供的综合奖励动态调整信息收集路径。

这种端到端的强化学习微调机制使大型语言模型能够自主发展与临床推理逻辑相符的互动策略,而不是简单地模仿现有对话数据中的表面模式。就像一位医学院学生通过不断实践,从"按教科书提问"逐渐发展出自己的临床直觉和问诊风格。

值得一提的是,研究团队构建了MTMedDialog数据集,这是首个能够模拟患者互动的英文多轮医疗咨询数据集。该数据集包含8,086个训练样本和2,082个测试样本,覆盖了8个主要疾病类别。这个数据集就像是AI医生的"临床实习基地",为多智能体系统在动态临床推理场景中的训练和评估提供了可能。

三、任务建模:如何将医疗咨询转化为强化学习问题?

要理解DoctorAgent-RL的工作原理,我们可以把整个医疗咨询过程想象成一场特殊的"医学侦探游戏",在这个游戏中,医生智能体扮演侦探,患者智能体提供线索,而咨询评估器则判断侦探的表现。

研究团队将多轮医疗咨询过程建模为多智能体协作强化学习系统。在这个系统中,医生智能体作为主要的策略优化对象,患者智能体作为协作对手形成动态博弈关系,而咨询评估器则作为中立仲裁者,通过精心设计的奖励机制引导医生智能体策略的优化过程。

对于医生智能体,其状态空间包含对话历史,提供咨询的完整记录。想象医生面前有一份不断更新的病历表,记录着与患者的每一次交流内容。医生的行动可以从两种行为中选择:生成医疗询问或执行诊断决策,就像真实医生要么继续提问,要么基于已有信息给出诊断。

环境动态由患者智能体通过状态转换控制:当医生提出问题后,患者的回答会更新当前状态,形成新的对话历史。咨询会一直持续,直到达到预定的对话轮数限制,或医生智能体提供最终诊断,此时完整的对话历史形成咨询轨迹。

为了增强策略优化的稳定性并消除对额外价值函数近似的需求,研究团队提出了群组相对策略优化(GRPO)作为策略梯度算法。与传统的近端策略优化(PPO)不同,GRPO使用多个采样输出的平均奖励作为基线,而不依赖于学习的价值函数。

患者智能体则是通过Qwen2.5-7B-Instruct模型实现,并通过精心设计的提示工程被整合到两阶段对话模拟框架中。在第一阶段,系统结合患者自我报告和多轮对话内容创建病例描述,并使用标准诊断结果增强潜在症状特征,形成更全面的隐藏医疗档案。这一设计有效缓解了传统数据集中由于医生询问不完整而导致的症状覆盖问题。

在第二阶段,患者智能体根据医生智能体的实时查询利用动态症状释放策略。它保持严格的病理一致性,同时模拟患者在症状描述细粒度和投诉顺序方面的自然变异性。通过保留完整的隐藏病例数据,患者智能体确保其自然语言响应符合临床标准,并完全基于对话历史生成。

四、咨询评估器:如何设计多维度奖励机制引导AI医生学习?

在DoctorAgent-RL框架中,咨询评估器扮演着至关重要的角色,就像是一位经验丰富的医学教授,从多个方面评估医生智能体的表现并提供指导。研究团队精心设计了一个多维度奖励系统,引导医生智能体掌握临床诊断的核心技能。

这个评估系统由三个核心组件组成,每个组件评估医疗咨询的不同关键维度:

首先是诊断准确性奖励。为确保评估的可靠性并防止任何潜在的奖励黑客行为,研究团队采用了基于规则的奖励机制。这种机制精细计算医生智能体预测诊断与金标准诊断之间的词级F1分数,以及推荐治疗的相应分数。通俗地说,就是比较AI医生的诊断和治疗建议与标准答案的匹配程度,越接近标准答案,得分越高。计算公式为:准确性奖励 = 5 × (诊断F1分数 + 推荐F1分数)。其中的系数5用于调整这一关键奖励信号在整体评估中的相对权重。

其次是信息获取效率奖励。一位优秀的临床医生知道如何高效地提出正确的问题。为了在医生智能体中培养这种技能,咨询评估器引入了一种动态奖励机制,鼓励有价值的提问,同时阻止重复或无用的查询。这一奖励直接与患者智能体在每个对话轮次后的反馈相关联,并在整个互动过程中累积。简单来说,当患者能够正常回答问题时,医生获得正向奖励;当患者拒绝回答(通常是因为问题重复或不相关)时,医生则受到惩罚。

最后是遵循规范奖励。遵守既定的临床访谈规范是专业医疗实践的标志。为了培养这种纪律性,咨询评估器包含了一个合规性奖励。该组件惩罚偏离预定义规范的行为,并确保智能体在规定限制内完成诊断过程。具体而言,如果问题格式违反预定义规范,将受到惩罚;如果在允许的轮次内没有提供诊断,则受到更严厉的惩罚;而正常遵循规范则不受惩罚。

通过结合这三个关键组件,医生智能体在每个时间步骤t收到的总咨询评估分数(或奖励)计算为:总奖励 = 诊断准确性奖励 + 信息获取效率奖励 + 遵循规范奖励。

这种精密的多维度咨询评估器不仅引导模型实现更高的诊断准确性,还积极鼓励发展高效的信息收集策略和专业、合规的临床行为,最终旨在实现接近专家人类临床医生的诊断能力。这就像一个全方位的医学教育系统,既关注"诊断结果是否正确",也注重"问诊过程是否专业高效"。

五、训练过程:AI医生如何从被动答疑转变为主动问诊?

DoctorAgent-RL的训练框架基于Qwen2.5-7B-Instruct构建,遵循DeepSeek-R1训练范式,采用了一个融合监督微调(SFT)和强化学习(RL)的两阶段训练流程,培养临床推理能力。

具体来说,研究团队从训练语料库中随机选择了1,000个多轮咨询对话。每个医生在采样对话中的查询都使用DeepSeek-V3增强了结构化思考过程,包括从上下文中派生的假设生成、证据评估和鉴别诊断步骤。医生智能体在这个丰富的数据集上进行微调,激活提问、诊断推理和建议生成的核心能力。

这个过程就像是让AI医生先通过观察和模仿优秀临床医生的行为来学习基本技能。通过研究真实医生如何进行诊断推理,AI系统学会了"思考"的基本框架:先生成可能的疾病假设,然后评估支持或反对这些假设的证据,最后通过比较不同可能性进行鉴别诊断。

在SFT之后,研究团队使用第3.2节详述的策略优化算法,在交互约束下优化智能体的决策能力。为了增强系统的鲁棒性并模拟真实世界的临床场景,研究者引入了动态对话轮数预算训练策略。每个训练周期被分配一个随机的对话轮数预算(2-10轮)。模型在每个互动步骤后被明确提醒剩余的轮数,鼓励高效的信息收集。

这就像是教AI医生学会在有限的时间内高效问诊。在真实医疗环境中,医生通常面临时间限制,需要在有限的咨询时间内获取尽可能多的有用信息。通过动态调整允许的对话轮数,AI系统学会了在不同时间约束下优化其提问策略。

这种两阶段方法确保智能体首先通过监督学习内化临床推理模式,然后通过交互式奖励优化完善其策略。简单来说,AI医生先学会"像医生一样思考",然后学会"像医生一样与患者互动"。

研究团队还进行了消融研究,比较了替代训练策略(直接SFT、直接RL、固定轮次训练)的效果。结果表明,这种组合式的训练方法在平衡基础医学知识与互动策略优化方面最为有效。

六、实验结果:DoctorAgent-RL如何超越现有AI医疗系统?

研究团队对DoctorAgent-RL进行了全面评估,比较了其与前沿模型、开源基础模型和领域特定模型的性能。结果令人鼓舞,DoctorAgent-RL在多轮推理能力和最终诊断表现方面均优于现有模型。

首先,在患者智能体模拟真实医疗互动的有效性评估中,研究团队比较了不同模型在MTMedDialog上的表现。在信息控制维度,Qwen2.5-7B表现出最佳合规性能,精确约束输出内容并有效避免无关信息泄露。在响应完整性方面,虽然DeepSeek-V3表现最佳,但Qwen2.5-7B仍然保持了医生-患者对话所需的关键信息密度的近乎最优水平。值得注意的是,所有测试模型在事实冲突维度上实现了零错误率,充分验证了大型语言模型在医学知识方面的可靠性。

在MTMedDialog数据集上的比较性能评估中,DoctorAgent-RL实现了53.9%的综合平均分数,显著优于前沿模型、开源基础模型和领域特定模型。系统在需要深入咨询的疾病类型中保持稳定优势,证明了其模拟医生临床咨询过程的卓越能力。

分析模型对话过程揭示了现有方法在互动质量方面的关键限制。虽然所有模型都收到明确指示"一次只问一个问题",但前沿模型虽然严格遵守但缺乏专业医疗咨询知识,往往在问题中遗漏关键症状信息。一些开源模型(如GLM-4、Mistral)虽然达到了不错的综合平均分数,但不当地组合了多个问题,反映了不充分的指令遵循能力,影响了复杂病情的诊断。领域特定模型BioMistral展示了最高的互动频率,但由于规划无效,经常重复类似问题,导致诊断准确率最低。

这些发现证明了问题质量——而非数量——决定了诊断有效性。DoctorAgent-RL采用分阶段训练策略:首先通过含有详细推理过程的医疗对话数据进行微调,建立系统化咨询能力;然后通过RL优化通过模拟医患对话的提问策略。这种方法使系统能够严格遵守咨询规范,同时允许基于获取的症状信息进行灵活、类似医生的问题调整。由此产生的智能提问策略显著提高了综合平均分数,同时保持了合理的互动频率。

在适应性微调策略方面,实验结果证明了研究团队提出的两阶段优化框架(SFT + RL)在医疗对话任务中的显著优势。DoctorAgent-RL实现了53.9的平均分数,优于所有基线模型。其关键优势源于分阶段策略:首先通过行为克隆在医患对话上建立合理的提问基线,然后通过RL优化实现高价值信息获取的提问策略动态调整。这种组合方法与基础模型相比,提高了平均诊断和推荐分数25.9%,同时提升了主动提问效率36.7%。

研究团队还进行了三个关键组件的消融研究,进一步验证了设计合理性:

首先,当在RL期间使用固定轮数预算进行训练时,模型在匹配场景中表现仅下降1.2%,但在推理过程中显示策略僵化——它机械地坚持训练预算轮数,无论指定变化如何,证明实际部署不切实际。

其次,没有SFT初始化的直接RL训练导致平均分数下降5.5%,同时平均轮数最低。虽然能够规划有效的信息收集问题,但由于缺乏行为克隆基础,模型在问题生成方面表现出不足的主动性。

最后,仅SFT训练导致平均分数下降6.5%,尽管具有最高轮数。模型记忆了训练数据中的问题序列,但没有真正理解诊断逻辑,导致机械提问而非策略性信息获取。

DoctorAgent-RL的综合表现确认了每个组件的必要性:SFT建立可靠的行为基线,RL注入动态决策能力,适应性轮数机制确保策略灵活性——共同形成面向任务的医疗对话优化的可复制范式。

对于预算轮数对诊断和推荐性能的影响分析表明,随着轮数预算增加,诊断和推荐的平均性能呈现明显的两阶段特征:在初始阶段(低轮数范围),性能随额外轮数快速上升,主要由于多轮对话机制使大型语言模型能够通过迭代提问逐步收集和优化患者信息;在中间阶段(中高轮数范围),性能曲线斜率明显趋平,因为患者可提供的有价值信息逐渐饱和,大型语言模型难以通过额外提问提取更多有意义的信息。

总体而言,更大的轮数预算仍然导致更好的性能,因为额外的互动机会可以捕获潜在的微妙信息差异。值得注意的是,诊断性能始终优于推荐性能,因为诊断任务可以通过多轮互动逐步确认症状特征,而推荐任务更依赖于已建立的医学知识库,为性能改善留下的空间相对有限。

七、未来方向:智能医疗对话系统的演进之路

DoctorAgent-RL的研究成果为医疗AI领域开辟了新的方向,但研究团队也指出了几个重要的未来发展方向。

首先,多模态医疗推理能力的提升。未来研究将致力于整合异构数据源,如医学成像、病理切片和可穿戴设备的实时生理信号,以增强模型对复杂条件的综合理解能力。这就像让AI医生不仅能通过问诊获取信息,还能"看"到各种检查结果,综合多种信息源做出更准确的判断。

其次,数据偏见和决策透明度问题的系统性解决。研究需要建立考虑人口统计特征和疾病谱系变异的公平性评估框架,确保模型在不同患者群体中的鲁棒性和可解释性。这相当于确保AI医生不会对不同性别、年龄或种族的患者产生诊断偏见,同时能够清晰解释其诊断推理过程。

第三,医疗AI伦理治理框架的发展。通过跨学科研究,解决诸如诊断责任归属、隐私和数据安全以及医患信任机制等关键问题,最终在技术创新与医学伦理和患者安全标准之间实现动态平衡。这就像为AI医生制定一套"希波克拉底誓言",确保它在追求技术进步的同时,始终将患者的安全和权益放在首位。

DoctorAgent-RL的研究不仅标志着医疗AI从静态问答到动态推理的范式转变,还为临床医生提供了可解释的决策支持,同时为患者主导的症状筛查开辟了新的技术途径。这项研究的最终目标是创建一个能够像人类医生一样思考和交流的AI系统,既能准确诊断疾病,又能与患者建立有效的沟通,实现医疗AI的真正价值。

分享至
2赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-