微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Group Think：多个并行推理智能体如何在标记级别协同合作

大型语言模型并行推理边缘计算

Group Think：多个并行推理智能体如何在标记级别协同合作

作者：科技行者

2025-05-21 14:20

分享至：

这篇研究论文介绍了一种名为"Group Think"的创新方法，让单个大型语言模型能够同时扮演多个并行推理智能体，这些"思考者"能在标记级别相互协作。传统多智能体系统通常采用轮流推理方式，而Group Think实现了实时并行协作，智能体可以看到彼此的部分生成内容并动态调整。实验表明，这种方法不仅提高了推理质量，还显著降低了延迟，特别适合资源有限的边缘设备。研究团队提出了两种高效实现方案，并通过三类代表性问题验证了Group Think的优势。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-21 14:20 • 科技行者

在人工智能领域，近期大型语言模型（LLMs）的发展取得了令人瞩目的进展。由MediaTek Research（联发科技研究院）的研究团队Chan-Jan Hsu、Davide Buffelli、Jamie McGowan、Feng-Ting Liao、Yi-Chang Chen、Sattar Vakili和Da-shan Shiu共同完成的这项研究，于2025年5月发表在arXiv（arXiv:2505.11107v1）预印本平台上，目前正在接受同行评审。这项研究提出了一种名为"Group Think"的创新方法，旨在提高大型语言模型的推理能力和效率。

想象一下，你和几个朋友一起解决一个复杂的数学问题。每个人都可以看到其他人正在写的过程，并且可以随时调整自己的思路来避免重复别人已经做过的计算，或者接续别人的思路继续推进。这正是Group Think方法的核心理念。

传统上，当多个AI智能体（或称为"思考者"）合作解决问题时，它们通常采用轮流发言的方式，一个智能体完成后，另一个才能开始，这种方式虽然能提高推理质量，却牺牲了速度。但在现实生活中，人类团队协作时往往是并行工作的，每个人都能看到其他人的工作进度，并据此动态调整自己的思路。

MediaTek的研究团队提出的Group Think正是让一个大型语言模型同时扮演多个并发的推理智能体，每个"思考者"都能在标记（token）级别实时看到其他思考者的部分生成内容，并据此调整自己的推理轨迹。比如，一个推理线程可能在察觉到另一个线程更适合继续某个思路时，在句子中途就改变自己的生成方向。这种精细的、标记级别的协作使Group Think能够减少冗余推理，提高质量，同时显著降低延迟。

让我们深入了解这项创新研究的细节和意义。

一、为什么我们需要Group Think？

现代的大型语言模型（如OpenAI的GPT模型、DeepSeek的R1以及Google的Gemini等）已经展示出了通过自我生成的思维链（Chain-of-Thought，简称CoT）进行推理的能力。思维链简单来说就是让AI在给出最终答案前，先写出中间的推理过程，就像学生解题时会先列出解题步骤。研究表明，这种方法能显著提高模型的推理准确性。

进一步的研究发现，如果让多个AI智能体协作，共同解决问题，他们的集体推理质量往往会超过单个智能体。就像在现实世界中，几个人一起头脑风暴往往比一个人思考更有创意和效率。

然而，传统的多智能体协作系统通常采用轮流发言的方式：第一个智能体完成推理后，第二个才能开始，依此类推。这就像一个会议，每个人必须等前一个人讲完才能发言。这种方式虽然能够提高问题解决的质量，但也大大增加了处理时间，造成了高延迟。

想象一下，如果你正在组织一个会议讨论复杂问题，是选择让10个人轮流发言每人讲10分钟（总共需要100分钟），还是让这10个人同时在10个小组讨论10分钟后汇总（只需10分钟）？后者显然更高效，但前提是这些小组之间能够实时沟通，避免重复工作。这正是Group Think想要实现的效果。

而且，在实际应用中，特别是在边缘设备（如手机、平板等）上运行语言模型时，通常会面临一个资源利用不充分的问题。由于通常只处理一次一个查询（批处理大小为1），导致设备上的GPU计算能力没有被充分利用。Group Think的并发性质允许更有效地利用这些闲置计算资源，使其特别适合边缘推理场景。

二、Group Think如何工作？

要理解Group Think，我们可以把它想象成一个"思维小组"，其中多个思考者（由同一个语言模型扮演）并行工作，每个思考者都能看到其他人正在写的内容，并据此调整自己的思路。

### 传统思维链与Group Think的对比

在传统的单一思维链方法中，语言模型接收一个输入问题I，然后生成一系列中间推理步骤X，最后产生答案Y。这就像一个学生独自解题：先列出解题步骤，然后得出答案。

而在Group Think中，多个思考者（或称为"智能体"）并行工作，每个思考者都能看到其他思考者的部分生成内容。具体来说，当第n个思考者要生成第k+1个词时，它会考虑问题和所有思考者目前已经生成的内容。这就像一群学生一起解题，每个人都可以看到其他人写下的步骤，并据此调整自己的思路。

在技术层面，Group Think通过在推理过程中引入跨智能体的注意力机制来实现。每个标记（token）不仅关注自己线程内的前面标记，还关注其他所有线程中的标记。这样，思考者们就能在标记级别相互适应，形成一种精细的协作模式。

### 高效实现方案

研究团队提出了两种实现Group Think的方法：

第一种方法针对本地推理场景（如在个人设备上运行语言模型）。在这种情况下，Group Think通过创建人工批处理来提高资源利用率。对于一个查询，N个智能体并行工作，形成有效的批量大小为N，充分利用了原本可能闲置的计算资源。每个智能体被分配一个标记预算K，并且可以访问其他智能体生成的标记，从而实现协作。

第二种方法针对数据中心场景，通过在生成过程中进行标记级别的交错来实现Group Think。每个智能体被分配一个标记索引槽，每个生成步骤为每个智能体填充一个标记，从而构建一个交错的注意力缓存。这样，每个新标记都可以关注所有之前生成的标记（包括来自所有智能体的标记），无需任何架构修改即可实现Group Think的好处。

这种实现方式的一个关键优势是，它允许在同一批处理中混合处理标准请求和Group Think请求，极大地提高了部署的灵活性。

三、Group Think的实验评估与结果

研究团队选择了三类具有代表性的问题来评估Group Think的表现：枚举问题、分治问题和编程问题。这些问题类别被精心选择，以展示Group Think在不同场景下可能展现的行为和优势。

对于每种问题类型，研究人员评估了性能-延迟权衡，通过测量在不同的每思考者生成长度下解决方案的完成覆盖率。考虑到合理的硬件和软件实现，实际延迟应该与多个智能体中最长的生成长度成正比。因此，研究团队采用每思考者的生成长度来代表延迟。

值得注意的是，实验中使用的是现成的、经过指令调整的语言模型，如Llama-3.1 8B Instruct和Llama-3.3-70B-Instruct。由于这些模型并未专门为Group Think进行训练，因此实验结果可以被视为Group Think潜在好处的保守下限。

### 枚举任务评估

在枚举任务中，系统被要求生成一个包含特定类别（如动物、颜色或国家）的L个不同项目的推理轨迹。尽管这看起来很简单，但它代表了Group Think如何有效解决现实世界问题的基础技能。

研究团队构建了10个涵盖各种领域的枚举提示，并使用Llama-3.1 8B Instruct模型进行测试。结果显示，Group Think的性能显著优于单一思维链方法，特别是在初期阶段，加速比接近思考者数量N。随着接近问题解决，这种加速逐渐减缓。此外，更多的思考者总是能更快地解决问题。

通过分析生成的推理轨迹，研究人员观察到了Group Think的一些有趣行为。例如，在生成男性名字的任务中，思考者们自发地将名字按不同的文化、历史或地域来源进行分类（如英语国家名字、古希腊和罗马名字、亚洲文化名字等），避免了重复，展现了有效的协作。

### 分治任务评估

分治是一种将复杂问题分解为更小子问题，然后将结果合并为整体解决方案的方法。研究团队选择了计算机科学教科书中的经典问题：使用Floyd-Warshall算法计算有向加权图中所有节点对之间的最短路径。

在实验中，研究人员随机抽样了几个具有5个节点的图，并使用Llama-3.3-70B-Instruct模型进行推理。结果证实，相比于单一思维链方法，4个思考者的Group Think能将延迟减少一半。更多的思考者能进一步提高性能，尽管由于节点数量较小，Group Think的优势可能在实验中很快就饱和了。

### 编程任务评估

编程任务代表了更现实的应用场景。在这类任务中，系统需要根据规范从头开始编写代码。研究团队使用GPT-4o生成了一系列可以在5000个标记内完成的Python编程问题，并使用Llama-3.1-8B-Instruct模型生成解决方案。

实验结果显示，单一思维链方法往往在解决这类问题时表现不佳，远未达到完全解决问题的水平。而具有四个或更多思考者的Group Think能在合理的生成预算内接近正确解决方案。从质量上看，Group Think表现出高度的警觉性，能有效避免工作重复。当多个思考者开始处理同一部分规范时，标记级别的交互粒度允许其他思考者快速检测到这一点，并转换到任务的不同部分。

### 与独立采样的比较

为了隔离协调带来的具体好处，研究团队将Group Think与独立采样（Independent Sampling，IS）进行了比较。独立采样可以被视为Group Think的一个特例，其中推理线程独立演化，彼此不可见。

实验结果表明，尽管在低延迟预算设置下Group Think与独立采样表现相当（因为协调需要消耗一定的标记量），但随着推理预算的扩大（通过更多的思考者N或每思考者更多的标记预算K），Group Think的优势变得越来越明显。独立采样会产生越来越多的冗余，而Group Think则保持高效协作，导致完成覆盖率的差距不断扩大。

四、Group Think的意义与未来展望

Group Think提出了一种全新的大型语言模型推理范式，它提倡在标记级别实时协作的多线程推理。虽然当前的语言模型并未专门为Group Think进行训练，但实验结果表明，它们已经展示出利用这种范式的初步能力。

从技术角度看，Group Think为本地设备上的语言模型推理提供了显著优势。在个人设备上，语言模型通常以批量大小为1的方式运行，导致计算资源未被充分利用。Group Think通过并行运行多个推理线程，有效利用了这些闲置资源，大大减少了推理的延迟开销，使小型语言模型在本地设备上的部署变得更加可行。

展望未来，研究团队提出了几个关键的研究方向：

首先，学习Group Think可能不比学习遵循新指令集更难。关键是需要一个数据集，展示在各种情况下的良好Group Think行为。当前的多智能体方法往往将语言模型拟人化为单一实体，而Group Think则提出了一种概念转变，将语言模型视为集体。构建或合成这样的数据集将是未来研究的重要方向。

其次，未来的工作应该关注如何实现更复杂的交互，例如显式和隐式的沟通策略、智能体之间的动态角色专门化、探索与利用的有效平衡，以及在集体中出现博弈论最优行为。这些复杂且适应性强的行为不太可能通过手工设计的启发式方法完全捕获或灌输，因此建立一个能够Group Think的数据合成器将是训练和基准测试未来Group Think语言模型的关键方向。

最后，在计算方面，本研究提出的实现策略需要对位置索引分配和自注意力掩码进行特定但轻量级的修改。未来发展的关键领域是这个框架的原生实现，这将使Group Think在资源受限的环境中更加实用。

总的来说，Group Think开辟了一个有前途的研究方向，有潜力通过实时、标记级别的协作，提高大型语言模型的推理能力和效率。随着专门为Group Think训练的模型的出现，我们可以期待看到更加复杂和高效的协作行为，为更高质量的生成提供支持。

大型语言模型并行推理边缘计算

分享至