微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Alita:极简设计打造无限创造力的通用AI助手

Alita:极简设计打造无限创造力的通用AI助手

2025-06-01 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 11:15 科技行者

在人工智能快速发展的今天,一项来自普林斯顿大学AI实验室、清华大学IIIS、上海交通大学、密歇根大学、天桥与克里斯蒂·陈研究所以及香港中文大学的联合研究成果正引起业界关注。这项研究由Jiahao Qiu、Xuan Qi、Tongcheng Zhang等研究者共同完成,并发表于2025年5月26日的arXiv预印本(arXiv:2505.20286v1),名为"Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution"。这篇论文介绍了一种全新的通用人工智能助手设计理念,颠覆了目前主流的复杂化发展趋势。

一、通用AI助手的现状与挑战:为何需要一场设计理念的革命

想象一下,你有一个助手,但每次需要它帮你做一件新事情,你都必须事先详细地教它怎么做。时间长了,你会发现这个"助手"反而增加了你的负担,而不是减轻它。目前的通用人工智能助手就面临着类似的问题。

近年来,大型语言模型(LLMs)已经从单纯的文本生成工具发展成为能够独立规划和执行复杂任务的自主代理。这些代理能够帮助我们完成从旅行规划到计算机使用,再到多步骤研究任务等各种应用。为了支持这些多样化且要求严格的任务,一类被称为"通用代理"(generalist agents)的系统应运而生。这些系统旨在通过统一的架构处理广泛的领域和任务,使它们能够超越特定任务的解决方案,如OpenAI的Deep Research和Manus等。

然而,目前大多数通用代理系统严重依赖大规模的人工工程,包括繁琐设计的工作流程、大量预定义的工具和硬编码的组件。这种依赖带来了几个关键限制:

首先,预定义所有工具几乎是不可能的。就像你不可能提前预料到生活中会遇到的所有问题一样,为代理系统预先定义所有可能需要的工具是不切实际的。这就导致了覆盖范围不完整的问题。

其次,预设的工作流程限制了创造力。想象一下,如果你只能按照固定的步骤解决问题,而不能灵活组合或创造新方法,你的解决问题能力将大大受限。同样,预设的工作流程和硬编码组件限制了代理系统的组合灵活性,阻碍了适应性行为的发展。

最后,不同工具之间的接口可能不兼容。就像一套英式插头在美国的插座上用不了一样,许多有用的工具可能与代理系统的框架不兼容,这就造成了匹配问题。例如,许多有用的工具不是用Python编写的,这使它们难以与主要用Python编写的主流代理框架连接。

这些挑战最终阻碍了现有通用代理系统的可扩展性、适应性和泛化能力。

二、Alita的设计哲学:最简设计,最大进化

与当前复杂化的发展趋势相反,研究团队提出了一种彻底简单的设计理念,建立在两个原则之上:

**最小预定义**:只为代理系统配备最小的核心能力集,避免为特定任务或模态手动设计组件。这就像给一个孩子提供基础工具和学习能力,而不是事先教他所有可能用到的技能。

**最大自我进化**:赋予代理系统自主创建、完善和重用外部能力的能力。就像孩子可以通过观察和尝试学习新技能一样,代理系统也应该能够根据需要自主发展新能力。

研究团队将这一愿景通过Alita实现。Alita是一个通用代理,它只配备了一个核心能力(即网络代理)和一小组通用模块,这些模块使其能够自主扩展能力。具体来说,研究团队利用了模型上下文协议(Model Context Protocols,MCPs),这是一个开放协议,用于标准化不同系统如何向LLMs提供上下文。他们让Alita能够根据每个任务的需求动态生成、调整和重用MCPs,而不是依赖静态的、预定义的工具。

这种从手动设计的能力到即时MCP构建的转变,为构建简单但功能强大的代理系统开辟了一条新路径。就像给一个聪明的学生提供基础知识和研究方法,而不是填鸭式地灌输所有可能的知识点,让学生能够自主探索和学习新内容。

三、Alita的技术架构:简约而不简单

Alita的框架设计非常简洁,主要由管理代理(Manager Agent)和网络代理(Web Agent)两部分组成,辅以MCP创建组件。这种设计就像一个精简的团队:管理者负责决策和协调,网络专家负责获取信息,而团队共同创造和使用新工具。

与那些依赖大量预定义工具和工作流程的通用代理不同,Alita的管理代理仅使用基本工具来协调网络代理。通过这种方法,Alita能够通过头脑风暴计划特定任务的工具。它利用网络代理搜索与这些工具相关的有用开源库和其他资源。基于搜索结果,Alita自主生成新工具并配置必要的环境,以增强其能力并有效解决任务。

在这个过程中,如果新生成的工具或其环境出现任何问题,Alita能够提供反馈并自我纠正,改进生成工具的质量。此外,这些新工具可以被封装为MCP服务器以供将来重用。借助MCPs,Alita可以生成越来越强大、多样化和复杂的MCPs,从而建立一个自我强化的循环。

### 执行流程:从任务到解决方案的旅程

当Alita接收到一个任务时,整个执行过程就像一场精心策划的探险:

首先,任务以增强提示的形式开始,包含原始查询。管理代理启动多步推理过程来解决手头的任务。在此过程中,代理可能通过网络代理查询外部资源,规划和合成新工具,并在隔离环境中执行这些工具。

工具生成成功并准确形成结果后,相应的脚本将转换为MCP并存储在内部工具注册表中以供将来重用。所有推理步骤、中间代码和最终输出都被系统地记录下来,以便进行全面分析。

### 管理代理:Alita的大脑

管理代理作为Alita框架中的中央协调者。当接收到任务提示时,管理代理首先调用MCP头脑风暴来确定是否需要额外的工具以及需要哪些特定工具。然后,管理代理将任务分解为子任务,并将它们分派给网络代理或生成所需的外部工具来完成子任务。必要时,管理代理利用网络代理检索到的信息生成所需的新工具及其相应的环境配置指令。收集所有中间结果后,管理代理执行最终汇总和响应制定。

在传统系统依赖大量预定义工具包的情况下,管理代理采用Alita的极简理念,使用简洁但强大的工具包,包括MCP头脑风暴、脚本生成工具和代码运行工具。具体来说:

MCP头脑风暴检测功能差距,确定必要的补充工具并概述工具规范;脚本生成工具获取工具规范概要,然后生成适合任务需求的工具;代码运行工具在隔离环境中执行生成的代码,并缓存输出以供潜在的MCP服务器生成。这些工具根据任务的不断变化的需求被智能调用,确保适应性和高效的问题解决。

### 网络代理:Alita的眼睛和耳朵

网络代理在内部知识不足时从外部源检索相关信息。它对需要检索特定领域代码或文档的任务特别有效。凭借轻量级、基于文本的Web界面和模块化导航工具,网络代理可以遍历多个网站,提取相关片段,并返回合理的URL或原始内容。

代理使用SimpleTextBrowser作为其Web界面,并使用页面级控制工具(如VisitTool、PageUpTool和PageDownTool)来导航网页。对于基于查询的查找,它应用GoogleSearchTool进行开放式Web搜索,并使用GithubSearchTool来识别可重用的开源工具。这种设计支持实时代码检索和上下文感知的工具规划。

### MCP创建组件:Alita的创造力引擎

为了实现代理的创造力,研究团队设计了三个工具,共同参与MCP创建过程:

**MCP头脑风暴**:由于大语言模型经常对自己的能力过度自信,研究团队引入了MCP头脑风暴,通过提供任务和当前框架描述来进行初步能力评估。他们设计了专门的提示以促进对代理能力的准确自我评估。此外,当MCP头脑风暴确定框架的能力不足以完成任务时,它会提供用于工具生成的参考,以弥合能力差距。这为后续完成给定目标所需的工具选择和任务规划提供了前期指导。

**脚本生成工具**:脚本生成工具是一个用于构建外部工具的代码构建实用程序。它接收来自管理代理的明确子任务描述和代码构建建议,以及通过网络代理获得的潜在有用的GitHub链接,这些链接可以提供诸如README.md文件或来自GitHub的代码片段等信息,以指导脚本生成过程。此外,脚本生成工具生成环境脚本来创建代码运行所需的环境,以及清理脚本来清理脚本执行后生成的冗余文件和环境。因此,脚本生成工具确保生成的脚本有效、自包含且可执行,使其适合在给定任务中部署,并可在将来重用。

**代码运行工具**:代码运行工具通过在隔离环境中执行来验证生成的脚本的功能。如果执行产生预期结果,则该工具在系统中注册为可重用的MCP。此过程还支持迭代完善,允许检查错误并随后重新生成代码以改进脚本的性能。

### 环境管理:Alita的工作间

在检索或生成候选工具后,系统激活环境规划器模块。该模块使用TextInspectorTool解析相关仓库或脚本元数据,如README.md、requirements.txt和shell脚本。它提取并验证依赖项和设置指令以构建隔离的执行配置文件。随后,使用唯一名称(通常从任务ID或仓库路径的哈希值派生)创建一个新的Conda环境,并使用conda install或pip install安装依赖项。

所有运行时环境都在本地并行初始化,无需管理特权或容器化技术。这种方法确保了各种任务之间的高兼容性,同时保持了系统的可移植性。在执行期间,在调用代码解释器之前明确激活环境,从而确保隔离和可重复性。

如果在环境初始化期间发生失败——由于诸如缺少包、设置脚本中的语法错误或不可用的依赖项等问题——Alita会激活自动恢复程序。这个程序尝试各种回退策略,包括放宽版本约束或识别功能所需的最小依赖集。如果这些恢复尝试不成功,则丢弃该工具,并记录失败以供离线分析和未来调查。这使Alita能够自我纠正其设计的工具,从而生成更准确和强大的解决方案。

四、实验结果:简约设计的力量

为了评估Alita的通用任务处理能力,研究团队在多个代理基准测试上进行了广泛的测试。

**GAIA基准测试**:GAIA是一个旨在评估通用人工智能助手能力的基准。它包含466个基于现实世界场景的问题,涵盖日常任务、科学推理、网络浏览和工具使用。虽然这些任务对人类来说在概念上很简单,但对大多数先进的AI系统来说却很具挑战性。

**Mathvista**:MathVista是一个设计用于在视觉上下文中评估基础模型数学推理能力的综合基准。它可以有效评估模型在视觉理解、数学推理、编程和其他相关技能方面的能力。由于资源限制,研究团队从数据集中随机选择了100个样本。

**Pathvqa**:PathVQA是一个医学视觉问答数据集。它可以有效评估代理在多个维度的能力,包括视觉理解、空间推理、医学知识搜索或整合以及自然语言处理。由于资源限制,研究团队从数据集中随机选择了100个样本。

研究团队在GAIA上进行了三轮测试,并在GAIA排行榜上取得了最佳表现,超过了其他代理系统。使用Claude-Sonnet-4和GPT-4o的Alita在GAIA基准验证数据集上达到了75.15%的pass@1和87.27%的pass@3准确率,在通用代理中排名最高,优于许多复杂程度远高的代理系统。

使用Claude 3.7 Sonnet + GPT-4o的Alita在GAIA上达到了72.73%的pass@1和86.06%的pass@3,并在Mathvista和PathVQA基准测试上分别达到了74.00%和52.00%的pass@1,优于Octotools和由smolagents开发的Open Deep Research。

这些结果令人惊讶地证明了,即使减少了预定义工具和工作流程,Alita仍然能够在各种任务上表现出色。这就像一个只携带少量多功能工具的旅行者,却能比那些带着大量专用装备的人更好地应对各种情况。

五、Alita的自我进化能力:知识的传承与积累

Alita最引人注目的特点之一是它能够生成可重用的MCP,这些MCP不仅可以被它自己使用,还可以被其他代理系统所使用。研究团队收集了Alita在运行GAIA数据集时使用强大模型(Claude-3.7-Sonnet和GPT-4o)生成的MCP。

重用Alita生成的MCP有两个好处:

首先,这些MCP可以被其他代理框架重用并提高它们的性能。这是因为Alita通过试错设计了一套适合GAIA的有用MCP,替代了人类开发者的工作。就像一个经验丰富的工匠制作的工具可以被学徒使用一样,Alita创造的工具可以被其他系统借用。

其次,这些MCP可以被使用较小语言模型的代理重用,并显著提高它们的性能。重用较大语言模型代理生成的自动生成MCP可以被视为从较大语言模型到较小语言模型的蒸馏的新方式。传统上,蒸馏可能是在较大语言模型生成的数据上微调较小的语言模型。相比之下,重用较大语言模型代理生成的MCP比传统蒸馏更容易、更便宜、更快。

### Alita生成的MCP被Open Deep Research-smolagents重用

研究团队在GAIA上运行基于GPT-4o的Open Deep Research-smolagents,有和没有Alita生成的MCP两种情况。实验结果表明,重用Alita生成的MCP在所有难度级别上都能带来比基础框架更好的性能。这证明了Alita可以生成非常有用的MCP,这些MCP可以提供给其他代理,帮助它们增强能力,解决原本无法解决的问题。此外,在所有难度级别上的一致改进表明,Alita的MCP提供了可泛化的实用性,而不仅仅是解决数据集中的特定边缘情况。

### Alita生成的MCP被基于较小语言模型的基础代理重用

研究团队在基础框架(即没有Alita中MCP创建组件的Open Deep Research-smolagents)中重用MCP,并基于GPT-4o-mini使用Open Deep Research-smolagents中使用的一些额外预定义工具。

实验结果表明,重用Alita生成的MCP显著提高了基于较小语言模型的基础框架的性能。这是因为Alita生成的MCP可以被视为从强大模型(Claude-3.7-Sonnet)蒸馏的MCP,这些MCP可供较小语言模型的代理使用。这有助于缩小基于较小语言模型的代理和基于较大语言模型的代理在某些领域之间的差距,从而增强其任务处理能力。

特别是对于Level 3,研究团队观察到了特别显著的改进,准确率从3.85%增加到11.54%,增加了三倍。这种在最具挑战性问题上的显著改进表明,Alita生成的MCP对于复杂推理任务特别有价值,这些任务通常是较小语言模型的代理最为困难的地方。MCP有效地封装了复杂的问题解决能力,使较小模型可以利用这些能力,而无需独立开发完整的推理链。

### Alita在较小语言模型上的表现

研究团队假设,随着语言模型编码和推理能力的提高,Alita将变得更加强大。为了验证其性能,他们使用GPT-4o-mini代替Claude-3.7-Sonnet在GAIA上运行Alita。

实验结果表明,在用GPT-4o-mini替换模型后,Alita在GAIA上的表现显著下降。这一显著的性能差距突显了底层模型编码能力的关键作用。另一方面,随着底层模型能力的提高,Alita的性能迅速提升。

这让我们可以预期,随着语言模型的未来更新,Alita的性能将继续增强,超越其当前的能力。未来通用代理的设计可能会变得更加简单,不需要任何用于直接问题解决的预定义工具和工作流程。相反,人类开发者可能会专注于设计用于启用和刺激通用代理创造力和进化的模块。

六、Alita案例研究:YouTube 360 VR视频字幕提取

为了调查Alita在处理任务时的工作流程,研究团队对其解决GAIA中一个Level 3难度问题的方法进行了案例研究。

问题是:"在2018年3月由《指环王》咕噜声音演员讲述的YouTube 360 VR视频中,在视频中首次显示恐龙后,旁白直接提到了什么数字?"

Alita的工作流程如下:

1. **MCP头脑风暴**:Alita提出开发一个"YouTube视频字幕爬虫"MCP,该MCP应自动从给定的YouTube视频中提取字幕。这涉及抓取视频的字幕并处理它们以隔离问题中事件之后的相关文本。

2. **网络代理执行**:为了实现字幕提取,在开源仓库中进行搜索,以找到可以帮助提取YouTube视频转录的相关工具。从GitHub仓库https://github.com/jdepoix/youtube-transcript-api中识别出一个合适的工具youtube-transcript-api。

3. **管理代理**:管理代理综合GitHub仓库中的信息,并继续编写一个Python函数,该函数利用youtube-transcript-api检索视频的转录以及相应的环境设置指令。

环境设置和安装步骤定义如下: ``` conda create -n youtube_transcript conda activate youtube_transcript pip install youtube-transcript-api ```

检索视频转录的Python代码如下: ```python from youtube_transcript_api import YouTubeTranscriptApi # 初始化API ytt_api = YouTubeTranscriptApi() # 检索转录 video_id = ... transcript_list = ytt_api.list('video_id') ... ```

4. **管理代理执行**:利用Python代码和建立的环境,管理代理成功打包了YouTube视频字幕爬虫MCP。随后,这个MCP被用来有效地从视频中抓取字幕,使相关内容能够被提取出来。分析内容后,从转录中提取出恐龙场景后旁白提到的正确数字(100000000)。

5. **最终输出**:"100000000"被确定为正确答案。

这个案例研究展示了Alita如何能够根据任务需求进行结构化的MCP头脑风暴会话,有效地识别和利用相关资源来实现可行的MCP,帮助完成任务。

七、结论:简约设计的未来

在这项研究中,研究团队介绍了Alita,一个通用代理,设计理念是最小预定义和最大自我进化。通过显著减少对手动预定义工具和工作流程的依赖,Alita利用实时的创造性、自主能力,促进可扩展的代理推理。

研究团队的方法证明,设计的简单性不会削弱,而是增强了通用代理的性能和适应性。就像达芬奇所说:"简约是终极的复杂。"("Simplicity is the ultimate sophistication.")Alita的成功表明,通过赋予AI系统自主发展能力,我们可以创建更加灵活、高效和强大的智能助手,而不必预先定义所有可能的工具和工作流程。

这项研究为未来AI系统的设计提供了一个重要的新方向:不是通过增加复杂性来增强能力,而是通过简化设计和增强自主性来实现真正的智能。这就像教一个人如何钓鱼,而不是每天给他一条鱼——通过赋予系统学习和适应的能力,我们可以创建真正能够随着时间推移而成长和进化的AI助手。

随着语言模型能力的不断提升,我们可以期待像Alita这样的系统变得更加强大,能够处理更加复杂的任务,并且需要的人工干预越来越少。这将为人类和AI之间的合作开辟新的可能性,使我们能够专注于创造性和战略性任务,而将更多的常规工作委托给我们的数字助手。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-