微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学突破:让AI专家团队在考试时"动态组队",推理能力飙升

浙江大学突破:让AI专家团队在考试时"动态组队",推理能力飙升

2025-10-22 13:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-22 13:24 科技行者

这项由浙江大学杨易教授团队和南洋理工大学合作完成的研究发表于2025年9月,论文编号为arXiv:2509.22572v1。想要深入了解技术细节的读者可以通过这个编号查询完整论文。

考试的时候,你是否想过如果能根据不同题目临时调整答题策略会有多好?比如遇到数学题时多动用逻辑思维,碰到语文题时更多发挥创意想象。现在,研究人员把这个想法应用到了人工智能身上,让AI在解题时能够灵活调整自己的"专家团队"配置。

当前最先进的大语言模型很多都采用了一种叫做"专家混合"的架构,就像一个超级智能体内部住着很多个不同领域的专家。平时这些专家中只有固定数量的几个会同时工作,就好比一个咨询公司每次项目都派出相同数量的顾问,不管项目难易程度如何。

研究团队发现了一个有趣的现象:如果让不同数量的专家参与同一个问题,虽然整体准确率差不多,但每种配置能解决的具体问题却大不相同。这就像不同的医生组合擅长诊断不同的疾病一样,三个医生的组合可能擅长心脏病,五个医生的组合可能更擅长脑科疾病。

基于这个发现,研究团队开发了一套名为"动态专家搜索"的方法。这个方法的核心思想是让AI在解题过程中能够灵活调整参与工作的专家数量,而不是始终使用固定的配置。

整个过程就像组织一场头脑风暴会议。首先,系统会同时尝试多种不同的专家配置来解决同一个问题。有些配置可能派出4个专家,有些派出8个,还有些派出10个。每种配置都会产生自己的解题思路和答案。

接下来,系统中有一个"评委"角色,专门负责评判这些不同解题方案的质量。就像比赛中的裁判一样,评委会给每个方案打分,分数高的方案更容易在下一轮中继续发展。

这里有个巧妙的设计:一旦确定了某个专家配置在当前步骤表现优秀,系统会在后续步骤中继续使用相同的专家数量。这样既保证了解题思路的连贯性,又能让最有效的配置获得更多资源来完善答案。

研究团队在多个AI模型上测试了这种方法,涵盖了数学、编程和知识推理等不同领域的问题。结果显示,动态专家搜索在几乎所有测试中都表现得比传统方法更好,而且计算成本并没有增加。

在数学问题上,这种方法让一个30亿参数的模型在MATH500数据集上的准确率从92.4%提升到93.2%。虽然提升幅度看起来不大,但要知道在这个水平上每提升0.1%都是非常困难的。在更难的AIME数学竞赛题目上,准确率从83.3%提升到86.7%。

更有趣的是,研究团队还发现不同类型的问题确实偏爱不同的专家配置。数学题通常在使用7-8个专家时表现最好,而编程题可能在4-5个专家时就能达到最佳效果。这证实了他们最初的假设:不同难度和类型的问题需要不同的"团队配置"。

为了验证这不是简单的"多用几个专家"带来的提升,研究团队仔细分析了实际使用的专家数量。结果发现,动态专家搜索平均使用的专家数量并没有超过模型的默认配置,有时甚至更少。这说明提升来自于更智能的配置选择,而不是暴力增加计算量。

研究还对比了目前很多模型提供的"思考模式"。这种模式通过生成更长的推理过程来提高准确率,但计算成本也相应增加。动态专家搜索在达到相似性能的同时,计算效率明显更高。

当然,这种方法也有一些限制。它需要一个外部的"评委"来判断答案质量,这增加了系统的复杂性。而且评委的判断准确性会直接影响最终效果,如果评委经常判断错误,整个系统的表现就会下降。

从更广的视角来看,这项研究展示了一个重要趋势:人工智能的进步不一定要通过简单粗暴地增加模型规模来实现,而是可以通过更聪明地利用现有资源来获得。就像一个公司不需要无限制地招聘员工,而是要学会根据不同项目灵活组建最合适的团队。

这种"架构感知"的推理方法为未来的AI发展开辟了新方向。随着模型架构变得越来越复杂和模块化,如何在推理时动态调整这些模块的使用方式将成为一个重要研究方向。

说到底,这项研究告诉我们,智能不仅在于拥有多少专业知识,更在于知道在什么时候调用哪些知识。就像一个真正的专家不是什么都懂,而是知道什么时候需要寻求哪方面的帮助。对于人工智能来说,学会"因题制宜"地调整自己的思考方式,可能比单纯增加知识储备更加重要。

这种方法目前主要在研究阶段,但随着技术的成熟,我们有理由期待未来的AI助手能够更加智能地根据我们的具体需求调整自己的工作方式,提供更精准、更高效的帮助。

Q&A

Q1:动态专家搜索是什么?它是如何工作的?

A:动态专家搜索是一种让AI在解题时能够灵活调整参与工作的专家数量的方法。它会同时尝试多种不同的专家配置来解决同一个问题,然后通过评委评判选出最好的方案,并在后续步骤中继续使用相同的专家配置,确保解题思路的连贯性。

Q2:这种方法比传统方法好在哪里?会增加计算成本吗?

A:动态专家搜索在几乎所有测试中都比传统方法表现更好,比如在MATH500数据集上准确率从92.4%提升到93.2%,在AIME数学竞赛题目上从83.3%提升到86.7%。关键是它并没有增加计算成本,平均使用的专家数量甚至比默认配置更少。

Q3:这项技术什么时候能应用到实际的AI产品中?

A:目前这项技术还主要在研究阶段,需要外部评委来判断答案质量,这增加了系统复杂性。但随着技术成熟,未来的AI助手有望根据具体需求动态调整工作方式,提供更精准高效的帮助。研究团队已在多个AI模型上验证了效果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-