微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 少说话,答得更准:德克萨斯大学达拉斯分校的AI研究团队让多个人工智能"闭嘴合作",反而答对更多题

少说话,答得更准:德克萨斯大学达拉斯分校的AI研究团队让多个人工智能"闭嘴合作",反而答对更多题

2026-06-02 09:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-02 09:16 科技行者

这项由德克萨斯大学达拉斯分校主导、联合独立研究者及加州大学戴维斯分校共同完成的研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.25188。研究提出了一个名为DarkForest的多智能体大语言模型协调框架,核心主张是:让AI之间少交流、甚至不交流,反而能答出更准确的结果。

这听起来有些反直觉——毕竟我们通常以为,多人讨论、集思广益才是解决难题的正道。但研究团队发现,当AI系统中多个智能体(可以理解为多个AI"选手")互相看到彼此的答题过程时,一个人的错误很容易像病毒一样扩散到其他人身上,最终大家信心满满地一起答错。DarkForest的解法是:让每个AI独立作答,然后由一套精密的"评估系统"汇总结果,再把经过提炼的、最少量的信息传递给最终的"裁判"来做决定。

一、为什么让AI"闭嘴"反而更聪明

要理解DarkForest解决的问题,先来考虑这样一个场景:你在参加一场知识竞赛,规则是小组里每个人先独立回答,然后大家把答案和推理过程念出来,再一起商量最终答案。听起来很合理,对吧?但问题来了——如果第一个发言的人说错了,而且说得非常有底气、推理听起来也头头是道,那么后面的人很可能会被影响,即使他们原本想到了正确答案,也可能在"大家都这样说"的压力下改变主意。最终,这个小组以压倒性的"共识"得出了一个错误答案。

这正是当前主流多AI协作系统面临的核心困境。研究团队将这种现象称为"错误传播":一个错误的中间推理过程一旦被分享出去,后续的AI就可能把它当作参考,不断强化和放大这个错误,最终形成一种虚假的、高置信度的错误共识。与此同时,这种频繁的信息交换还带来了另一个现实问题——消耗大量的计算资源和时间,每一轮对话都意味着更多的文字被处理,成本随之飙升。

为了量化这个问题有多严重,研究团队做了一个直观的实验。他们先让多个AI独立回答数学题,统计"至少有一个AI答对"的比例,这个比例代表着这批AI在理论上能够做到的最佳表现——称之为"正确候选可用率"。在数学基准测试MATH上,这个上限达到了75.2%,也就是说超过四分之三的题目,至少有一个AI手上握着正确答案。然而,当这些AI开始互相交流、反复讨论之后,最终的答题准确率却大幅低于这个上限:有的方法最终只达到57.4%,有的甚至跌到27.2%。这意味着,协作过程非但没有帮助,反而把原本握在手里的正确答案给丢掉了。

这个发现促使研究团队重新思考:问题的关键不是让AI多说话,而是要控制AI之间传递什么样的信息。

二、从不完全信息博弈论中汲取灵感

DarkForest的设计哲学来自一个看似遥远的领域——不完全信息博弈论。简单来说,这是研究在信息不透明、各方只知道自己掌握的情况下如何做出最优决策的数学理论。扑克牌游戏是一个经典例子:每个玩家只能看到自己的牌,不知道对手手上有什么,因此决策必须基于概率和有限信息,而不是全盘了解。

研究团队从这个理论中提炼出一个核心原则:在不确定性高、信任有限、通信代价大、错误代价也大的场景下,一个智能体不应该暴露超过可靠协调所需的最少信息量。把这个原则翻译成多AI协作的语言就是:AI之间的协作不等于分享更多文字,真正有价值的协作是把经过筛选和校准的、最精简的证据,通过一套明确的信息策略传递给最终决策者。

于是,研究团队设计了DarkForest这个框架。它的名字本身就透露了设计理念——"黑暗森林",在这片森林里,每个AI独自行动、互不干扰,只有经过严格筛选的信号才会在森林中传播。这个框架由独立生成、结构化解析、候选聚类、校准置信度构建、受控披露和最终决策六个环节组成,环环相扣,形成一条从"各自作答"到"精准裁决"的完整流水线。

三、DarkForest的六道工序:从各自为战到精准裁决

整个DarkForest的运作流程,可以用一个"盲测品酒会"的比喻来理解。假设你要评选出最好喝的葡萄酒,你请来了多位品酒师(对应多个AI智能体)。关键规则是:每位品酒师独自品酒、独自写下意见,彼此之间完全隔离,不能交流。然后,一位评审总监(对应"协调者")拿到的不是每位品酒师的完整品酒日记,而是一份经过整理的摘要:哪几位品酒师给了相同的评价,他们各自的历史准确率如何,这份摘要的可信度打几分。最后,评审总监根据这份摘要做出最终裁定。

第一道工序是独立生成。每个AI智能体单独接收同一道题目,各自独立作答,完全不知道其他AI在想什么、写了什么。这一步的目的是最大限度保留每个AI判断的独立性——就像品酒师在完全隔离的环境下品酒,确保他们的感受不会被他人影响。

第二道工序是结构化解析。原始的AI输出往往是一段混杂着推理过程、格式标记和最终答案的文字,就像品酒师写了一篇长文,里面夹杂着个人感受、历史知识和最终打分。DarkForest会把这段文字解析成一个结构化的"观测记录",包含五个要素:解析出的候选答案、这个答案的标准化表示、AI自报的置信度(0到1之间的数值)、解析是否成功的标志、以及解析质量的元数据(比如输出是否格式混乱)。如果解析失败,这个AI的回答就直接被排除在外,不参与后续计算。

第三道工序是候选聚类。在把所有AI的回答解析成结构化记录之后,DarkForest会把语义上等价的答案归并到同一个"候选簇"里。每个簇包含三个信息:标准化的答案本身、支持这个答案的AI集合、以及支持模式(即具体是哪几个AI支持了这个答案)。这一步把各色各样的文字输出,转化成了一组有限的、相互竞争的候选假设,就像把品酒师们的长篇大论归纳成几个明确的选项:A酒最好、B酒最好、C酒最好。

第四道工序是校准置信度构建,这是DarkForest最核心、也最精妙的环节。对于每一个候选簇,系统会计算一个"校准证据分数"。这个分数不是简单地数有几个AI支持这个答案,而是把多个维度的信息综合在一起进行加权计算。

具体来说,这个分数由五个因素共同决定。第一个因素是每个AI的历史可靠性——通过在已知答案的校准样本上测试,系统会记录每个AI的历史正确率,并用一种叫"拉普拉斯平滑"的技术处理,防止样本太少时估计失真。第二个因素是支持模式可靠性——不只看有几个AI同意,还要看是哪几个AI同意。比如,两个在历史上经常同时答对的AI一起支持某个答案,和两个在历史上几乎没有交集的AI一起支持某个答案,这两种情况的证据强度是不同的,前者意味着更多的独立验证。第三个因素是解析质量惩罚——如果某个AI的输出格式混乱(虽然能勉强解析出答案),它的贡献会被打一个折扣系数,因为格式混乱的输出往往意味着更高的出错风险。第四个因素是独立性修正——如果两个AI在训练数据、架构或微调过程中高度相关,它们的"一致同意"不能算作两份完全独立的证据,系统会为相关AI的贡献打折扣,防止相关性被误判为独立验证。第五个因素是置信度调节——AI自报的置信度会作为一个弱调节信号,通过一个有界的线性变换(0.5加上置信度),将每个AI的贡献在0.5到1.5倍之间调节。这个设计刻意让置信度只起辅助作用:一个低置信度但有效的答案仍然会贡献证据,一个高置信度的答案会获得更多权重,但无法仅凭置信度就主导整个结果。

把这五个因素综合在一起,系统就能为每个候选答案计算出一个"后验概率",然后找出概率最高的候选答案,并计算它与第二名之间的差距(称为"后验边际")。这个差距是衡量结果可信度的关键指标——差距越大,说明领先答案越可靠。

第五道工序是受控披露。评审总监拿到的不是每位品酒师的完整日记,而是一份经过"披露策略"筛选的摘要。这份摘要可能包含标准化候选答案、支持模式、置信度分数、后验概率质量、不确定性指标,但绝对不会包含原始的完整推理过程,除非明确允许。研究团队还会记录每次披露消耗了多少"词元"(即AI处理文字的计量单位),把通信量变成一个可以精确测量和控制的设计变量,而不是多智能体协作的隐性副产品。

第六道工序是最终决策与确定性守卫。协调者(最终裁判AI)接收原始题目和上述摘要,在这个基础上给出最终答案。系统把这份摘要当作"先验信息"而非"证明",协调者可以选择遵从最高概率候选,也可以选择一个较低概率的候选,或者综合校验后给出修正答案。在协调者给出答案之后,DarkForest还有最后一道"确定性守卫"机制:如果置信度分析结果强烈支持某个候选答案(支持该答案的AI数量超过阈值k,后验概率超过阈值τp,且后验边际超过阈值τm),但协调者给出了不同的答案,那么系统会自动用这个强支持的候选答案覆盖协调者的输出。这道守卫不需要额外的AI调用,纯粹是基于已有数据的确定性计算,因此不会增加任何额外成本,却能有效防止协调者在强证据面前犯错。

四、在六个领域的实战表现:少说真的能多赢

研究团队在六个不同性质的推理基准上对DarkForest进行了全面测试,覆盖了数学、代码生成、通识问答、研究生级科学问答、金融推理和法律推理。每个基准都有对应的评估指标:数学题用精确匹配率,代码生成用通过率,通识和科学问答用准确率,金融推理同时报告执行准确率(最终数值是否正确)和程序准确率(推理步骤是否正确),法律推理用精确匹配率。

对比的基线方法共有六种,代表了当前主流的多AI协作范式。辩论法(Debate)让多个AI互相看答案、反复辩论、修正立场。自一致性法(Self-Consistency)对同一个AI进行多次采样,取多数票。自我精炼法(Refine)让单个AI反复自我批评和修改。ReConcile让多AI进行置信度加权的圆桌讨论。混合智能体法(Mixture-of-Agent,MoA)采用分层聚合,第一层AI出候选,后续层AI整合。图智能体法(Graph-of-Agent,GoA)把AI放在图结构上,通过边传递信息、用均值或最大值聚合。

在数学基准MATH上,DarkForest达到了76.80%的精确匹配率,比排名第二的自一致性法高出5个百分点,比图智能体均值法高出5.4个百分点。在通识问答MMLU-Pro上,DarkForest达到了58.38%,超过排名最高的辩论法2.52个百分点,比其他聚合类方法的优势则更为显著。在金融推理FinQA上,DarkForest取得了最佳的程序准确率11.33%,执行准确率15.67%仅比图智能体均值法低0.33个百分点。在法律推理LegalBench上,DarkForest达到68.00%,比排名最高的ReConcile仅低1个百分点,高于其他所有基线。在研究生级科学问答GPQA上,DarkForest达到39.90%,仅比排名最高的自一致性法低约1.2%。

唯一一个DarkForest没能进入第一梯队的是代码生成基准HumanEval:DarkForest以84.00%与混合智能体法并列,但比图智能体最大值法低了2个百分点。研究团队对此给出了合理的解释:代码生成任务的特殊性在于,保留更完整的候选程序细节有时确实有用,而DarkForest的紧凑摘要设计在这类需要传递大量实现细节的任务上存在一定局限。不过,即便在这个任务上,DarkForest每道题只消耗1.5千个词元,而两种图智能体变体分别消耗8.5千和7.2千个词元,质量接近的同时成本优势依然显著。

在词元消耗方面,DarkForest的节约程度令人印象深刻。与图智能体均值法相比,在数学基准上词元消耗从每样本13.8千降至4.7千,在通识问答上从24.6千降至5.9千,在科学问答上从13千降至3.2千,在法律推理上从8.7千降至1.9千。最极端的情况下,节约比例超过6.5倍。

五、拆开DarkForest看:每一个零件都有用

为了验证框架各个组件的贡献,研究团队做了一系列"拆零件"实验,依次移除某个组件,观察性能如何变化。

第一组实验测试投票策略的影响。研究团队比较了三种方案:简单多数票(每个AI一票,票多者胜)、加权投票(按历史可靠性加权,但不包含其他置信度机制)、以及完整DarkForest。在通识问答MMLU-Pro上,简单多数票准确率53.00%,加权投票提升到56.38%,完整DarkForest进一步达到58.38%。在法律推理LegalBench上,三者分别为65.00%、66.60%和68.00%。这说明历史可靠性校准确实有价值,但仅靠可靠性加权还不够,支持模式建模、不确定性信号和协调者验证共同带来了额外的收益。

第二组实验测试协调者和确定性守卫的分工。移除协调者、直接返回概率最高的候选答案,对数学基准的准确率没有影响(因为在数学题上,校准置信度分析已经足够有把握),但使法律推理准确率从68.00%降至67.20%。这说明协调者在答案形式多样、需要把证据与原始题目比对的任务上更有价值。移除确定性守卫则对两个基准都造成了损失:数学准确率从76.80%降至75.40%,法律准确率从68.00%降至65.60%。守卫的作用是在协调者犯错时提供一道最后的保险,而且由于守卫是纯计算操作,移除它不会节省任何词元消耗,这意味着守卫以零成本提供了质量保障。

第三组实验测试披露策略的松紧对质量和成本的影响,使用的测试集是研究生科学问答GPQA。紧凑的置信度摘要和包含推理摘要的中等披露都达到了40.00%的准确率,但前者只消耗每样本3435.5个词元,后者消耗4136.0个词元。完全暴露原始推理过程的最宽松策略消耗了5004.5个词元,但准确率反而降至36.67%。这有力地支持了DarkForest的核心判断:向协调者输送更多原始文字不能提升决策质量,紧凑的校准证据才是关键。

第四组实验测试校准组件的重要性。研究团队在数学和法律推理上比较了三种校准程度:均匀权重(所有AI等权,不考虑历史可靠性)、仅做智能体级可靠性校准(不使用完整的置信度建构机制)、以及完整DarkForest校准。在数学基准上,均匀权重71.2%,智能体级校准76.8%,完整校准也是76.8%,收益主要来自可靠性校准。在法律推理上,三者分别为65.2%、66.6%、67.2%,完整校准带来了额外的小幅提升。这说明在答案提取相对干净的任务上,可靠性校准是最主要的改进因素;在答案形式更复杂的任务上,支持模式建模等更精细的机制才能发挥更大作用。

第五组实验测试确定性守卫对后验概率阈值的敏感性。研究团队分别把触发守卫的概率阈值从0.50调高到0.66再到0.80,保持边际阈值不变。结果显示,0.50和0.66的设置在数学和法律推理上都达到相同的最优准确率,0.80的设置则因守卫过于保守、错过了一些应该纠正的情况,导致准确率小幅下滑。这说明守卫的表现对阈值设定具有一定鲁棒性,不需要精细调参,约三分之二的后验概率是一个合理的保守强证据标准。

第六组实验测试系统随智能体数量扩展的能力。默认的金融推理设置使用三个AI。研究团队依次增加到四个(加入代码专用AI)和五个(再加入数学专用AI),保持协调机制不变。执行准确率从15.67%升至19.00%再升至19.33%,程序准确率从11.33%升至13.00%再升至13.67%。对应的词元消耗从4.5千增至4.9千再增至5.4千,增幅温和。这表明DarkForest可以自然地吸收更多独立证据,而无需把协调模式改为多轮交流。

第七组实验测试框架对协调者选择的鲁棒性。研究团队固定所有初始智能体的输出、校准置信度状态和确定性守卫,只替换协调者模型,在金融推理上对五种不同的模型进行测试。代码专用AI作为协调者时达到了最高的17.67%执行准确率,通用AI和数学专用AI也表现良好,法律和金融专用AI则表现较差。这说明协调者的选择确实会影响结果,但框架的校准置信度机制对多种协调者都有效,不依赖于某一特定的协调者。

六、为什么这项研究超越了"投票更聪明"这个简单结论

读到这里,你可能会想:这不就是说加权投票比简单投票更好吗?但DarkForest的贡献其实远不止于此。

传统的加权投票只回答了"哪个答案得票更多(且权重更高)"的问题,它并不追问"为什么这些AI会在这个时候同意这个答案",也不区分"两个完全独立的AI各自得出相同结论"和"两个高度相关的AI几乎总是给出相同答案"之间的本质差异,更不考虑"在我们历史上,恰好是这三个AI同意某个答案的时候,这个答案究竟有多大概率是对的"。

DarkForest对这些问题都给出了明确的回答。支持模式可靠性把"哪几个AI同意"而非"有几个AI同意"纳入考量,让系统能够区分高价值的独立验证和低价值的相关一致。独立性修正进一步防止系统把相关AI的一致性误认为独立证据的叠加。这两个机制共同作用,让DarkForest的置信度评估更接近于真实的贝叶斯推断,而不是简单的统计计数。

更重要的是,DarkForest把"应该向协调者透露什么信息"这个问题从多智能体系统设计的隐性副产品,变成了一个可以明确测量、精确控制的设计变量。每次协调使用了多少词元、暴露了哪些信息、哪些信息被屏蔽,都有据可查。这让系统设计者可以根据任务需求、成本预算和错误容忍度来调整信息披露策略,而不是默认把所有文字都扔给协调者了事。

说到底,DarkForest给出的答案是:多智能体AI协作的核心问题不是如何让AI多说话,而是如何保护每个AI独立产生的证据不被污染,如何把这些证据校准成可靠的置信度估计,以及如何只把这些估计中最关键的部分传递给最终决策者。这套思路在数学、代码、通识、科学、金融和法律六个领域都得到了验证,节省成本的同时没有牺牲、反而提升了准确率。

对于任何需要部署多AI协作系统的场景,这项研究提示我们:在设计AI之间的通信机制时,"少即是多"不是一种妥协,而是一种经过严格论证的策略。当每个AI都能独立、安静地给出自己的判断,当这些判断通过校准机制被转化为可靠的证据,当最终的裁判只需要看一份精炼的摘要就能做出决定,整个系统反而能比所有AI都吵作一团更快地找到正确答案。

有兴趣深入了解这套框架的完整数学推导和实验细节的读者,可以在arXiv平台通过编号arXiv:2605.25188查阅完整论文,代码也已在论文中提供的GitHub地址上开源。

Q&A

Q1:DarkForest和普通的多数投票法有什么本质区别?

A:普通多数投票只数有几个AI同意某个答案,所有AI的意见权重相同。DarkForest则在此基础上做了三件额外的事:根据每个AI的历史准确率给它的意见加权,根据历史上"恰好是这几个AI同意时"的成功率来评估支持模式的可靠性,还会对彼此高度相关的AI进行折扣,防止相关一致被错误计入独立验证。这三者结合,使得DarkForest的置信度评估更接近真实的概率推断,而不是简单计票。

Q2:DarkForest的"确定性守卫"机制在什么情况下会介入?

A:确定性守卫只在两个条件同时满足时才会触发:一是校准置信度分析强烈支持某个候选答案(支持该答案的AI数量、后验概率和领先优势三项指标都超过预设阈值);二是协调者给出了与这个强支持答案不同的结论。只有在这种"系统强烈认为协调者犯错了"的情况下,守卫才会用强支持答案覆盖协调者输出。守卫本身是纯计算操作,不需要调用任何AI模型,因此不会增加任何成本。

Q3:DarkForest的校准阶段需要多少已知答案的样本?

A:根据论文中的实验设置,不同基准测试使用了50到114个样本作为校准集,具体数量视任务而定。校准阶段只需要在这些已知答案的样本上运行各个AI,统计每个AI的历史准确率、各种支持模式的历史成功率、缺失置信度时的默认值、以及格式混乱输出相对于格式正常输出的准确率折扣,然后把这些统计结果固定下来,在测试阶段直接使用,不再更新。校准过程中AI模型本身的参数完全不变。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-