
在人工智能快速发展的今天,一个重要问题摆在我们面前:AI应该独自进化,还是与人类携手前行?Meta公司的FAIR实验室研究员Jason Weston和Jakob Foerster在2025年12月发表的最新论文中,为这个问题提出了一个令人深思的答案。这项发表在arXiv预印本平台上的研究(论文编号:arXiv:2512.05356v1),标题为"Self-Improving AI & Human Co-Improvement for Safer Co-Superintelligence",为AI发展描绘了一条与众不同的道路。
想象一下这样的场景:你和一位非常聪明的朋友一起解决难题,你们各自的优势互相补充,共同思考,最终找到比任何一方单独工作都要好的解决方案。这就是Weston和Foerster提出的"共同改进"理念的核心思想。与目前主流的让AI独立自我改进的方向不同,他们认为人类与AI协作研究可能是通向超级智能更快、更安全的道路。
这项研究的背景深深植根于当前AI发展的现实挑战。从最初的线性模型到今天的大型神经网络,AI系统一直在追求自我改进的能力。近年来,我们见证了AI在创建训练数据、自我评估和自我奖励等方面的突破。然而,研究团队观察到,完全自主的AI自我改进存在两个根本问题:这可能不是达到超级智能最快的路径,同时也可能不是最安全的路径。
当前的AI研究主要由人类主导,但研究者们预见,随着AI能力的提升,它们将逐渐承担更多研究工作。关键问题在于如何管理这个过渡过程。传统的自我改进范式试图尽快将人类从循环中移除,让AI自主进行研究和学习。相比之下,共同改进范式则强调建立能够与人类研究者协作的AI代理。
一、传统AI自我改进的挑战与局限
为了理解为什么需要新的路径,我们需要先看看传统AI自我改进面临的挑战。目前的AI自我改进可以比作一个学生在没有老师指导下自学。虽然这个学生很聪明,能够通过练习提高自己的技能,但缺乏外部指导可能导致学习方向偏离或陷入错误的思维模式。
在AI领域,自我改进的历史可以追溯到该领域诞生之初。早期的实现主要关注参数优化——就像调整乐器的音调一样,通过微调权重来找到最佳配置。2010年代以来,我们看到了向更大模型的扩展,这就像建造更大的乐队来演奏更复杂的交响乐,但基本的"乐谱"(架构、数据、目标函数等)大多保持不变。
当代AI系统已经在某些自我改进方面取得了显著进展。它们能够创建自己的训练数据,这就像一个厨师不仅能按食谱做菜,还能发明新的食谱。它们可以挑战自己变得更好,类似于运动员为自己设定越来越高的训练目标。更重要的是,它们学会了基于自己的表现进行自我评估和奖励,就像学生能够判断自己的答案是否正确并据此调整学习策略。
这些技术中的一些已经为前沿模型提供了可观的性能提升。合成数据创建和LLM作为评判者的方法现在已成为构建先进模型的标准构件。然而,AI改进自己的架构和重写自己代码的探索仍处于起步阶段,尽管早期迹象显示了其前景,当前对自主AI研究代理的推动证明了这一点。
但这种完全自主的方法存在根本性风险。如果没有适当的指导机制内置到系统中,赋予AI这种自主能力可能对人类造成危险——从误用到错位都有可能。这就像给一个非常有才华但缺乏人生经验的年轻人无限的资源和权力,而没有任何监督或指导原则。
二、共同改进:人类与AI协作的新范式
面对传统自我改进方法的局限,研究团队提出了一个革命性的替代方案:共同改进。这个概念的核心思想是"解决AI问题通过构建能够与人类协作解决AI问题的AI来加速"。这与试图尽快将人类从循环中移除的自我改进AI目标截然不同。
共同改进就像组建一个多元化的研究团队,其中人类和AI各自发挥自己的优势。人类擅长创造性思维、价值判断和整体方向把握,而AI擅长数据处理、模式识别和大规模计算。通过将这些互补技能结合起来,团队能够取得比任何一方单独工作更好的结果。
这种方法的一个关键优势是它允许我们利用人类和AI当前在不同领域的优势。虽然AI在某些任务上已经超越了人类,但在其他许多方面,人类仍然具有明显优势。更重要的是,由于AI还不够成熟,无法完全自我改进,并且容易出现错位问题,共同改进有望让我们更快、更安全地到达目标。也就是说,在AI的帮助下,我们更有可能解决AI的能力和安全问题——但人类要参与其中,在研究中进行协作。
当我们谈到"我们已经在这样做了吗?"这个问题时,答案是部分肯定的。确实存在通向超级智能的多种可能路径,当前的AI系统已经在某种程度上帮助我们探索这些研究方向,比如通过代码辅助和写作辅助。而且,一般来说,改进前沿模型的整体能力确实会让它们具备一些适合研究协作的技能——这是一个副产品。
然而,研究团队指出,当技能被有针对性地开发时,通常会得到进一步改善。比如,人们在改进AI编程技能方面投入了大量精力,结果确实提高了AI的编程能力。虽然编程问题也没有完全解决,但"解决"AI远不止编程这一个方面。研究团队的核心观点是,如果投入更多开发资源来赋予AI研究协作技能,这些能力也会变得更好。
三、共同改进的具体实现路径
要实现有效的人类-AI协作研究,需要覆盖AI开发的各个重要环节。这就像建造一条完整的生产线,每个环节都需要精心设计和优化。
首先是协作问题识别阶段。这个过程就像组织一次头脑风暴会议,人类和AI共同帮助定义目标,识别当前的失败点,提出未探索的方向,并考虑现有工作。AI可以快速检索和分析大量已有研究,而人类可以提供创造性洞察和价值判断,确保研究方向符合人类需求和伦理标准。
接下来是基准创建和问题评估。在确定了要解决的问题后,人类和AI需要共同定义期望标准,构建基准测试并进行性能分析,然后完善基准以验证问题。这就像设计一套考试题目来测试学生是否真正掌握了知识,需要既有技术精确性又有教育智慧。
方法创新和想法生成是整个过程的创造性核心。人类和AI需要共同头脑风暴并识别解决方案,包括系统、架构、算法、训练数据、配方和未来模型的整体代码设计。这个过程类似于建筑师和工程师合作设计新建筑,需要将创造性愿景与技术可行性完美结合。
实验设计阶段需要人类和AI共同设计测试创新的整体计划,包括实验协议和设置、进一步的基准识别、建议的消融研究等。这就像制定一个详细的科学实验方案,既要有严谨的逻辑性,又要考虑到各种可能的变量和干扰因素。
协作执行阶段让人类和AI共同产生和运行多步骤工作流程,包括实现和实验。这个阶段就像厨师和助手一起准备一道复杂的菜肴,需要精确的协调和时机把握。
评估和错误分析阶段涉及分析基准测试和个别案例的性能,识别成功和失败之处,并大规模提供反馈循环用于研究迭代。这就像医生诊断病情一样,需要仔细观察症状,分析原因,并制定改进方案。
除了这些核心研究活动,还有几个重要的支持领域。安全性和对齐方面,人类和AI需要共同开发方法以及价值观和宪法,并使用整个研究循环来开发和测试它们。系统和基础设施共同设计包括联合架构管道、优化、配置和可重现性改进。将研究成果整合到真实世界系统中需要协作将研究转化为实际应用,这反过来可能识别出进一步需要的研究。
科学交流方面,需要共同起草文档和报告,包括图表和结果,确保信息的清晰性和正确性。集体智慧和群体研究涉及多人类和AI协作解决给定问题,汇聚观点,构建辩论结构,并综合共识和可行步骤。
最终,双向共同改进的目标是整体协作旨在增强人类和AI的智能,包括研究循环中的所有学习成果,目标是实现共同超级智能。
四、从共同改进到共同超级智能的愿景
研究团队设想,共同改进的首要目标是提高我们进行AI改进研究的能力。他们预期,当成功时,最终结果将像自我改进范式一样,产生具有自我改进能力的超级智能系统。然而,差异在于当人类与AI系统一起工作以帮助在循环的每一步实现这一目标时,我们有更多机会引导这个过程朝着对人类有利的方向发展。
这就像培养一个孩子成长为负责任的成年人。如果我们在整个成长过程中提供指导和支持,而不是让他们完全独自摸索,我们更有可能培养出既有能力又有良好价值观的人。特别是,我们可以考虑安全性和社会危害问题,并在每一步增加人类的集体知识。
展望未来,研究团队进一步设想,共同改进的目标可能会从构建在AI研究上协作的AI转向在各种研究或对人类重要的话题上进行共同改进。随着AI变得越来越有能力,这些新技能有望变得更容易获得。从人类社会的角度来看,构建AI可以帮助人类改善自己、自己的能力和知识以及自己的处境。因此,我们可以专注于构建朝着这些目标的AI。我们因此将AI帮助我们实现这些能力(超越我们目前的能力)称为共同超级智能,强调AI可以回馈给人类的东西。
五、应对社会危害与促进社会效益
随着AI能力的增强,潜在危害的可能性也在增加。研究团队承认这一现实,但提出了一个乐观的观点:通过协作,AI的增强能力实际上可以被利用来减少危害——如果做得正确的话。
今天存在许多由于模型能力不足而导致的危害。举个例子,越狱攻击之所以发生,是因为模型不能"理解"它们被越狱了。与AI协作可以帮助找到解决这些问题的研究方案——解决它们自己的问题!也就是说,找到并实现导致更安全模型的新能力、新安全程序,以及共同开发价值观、约束和宪法。这种乐观的观点认为,AI增强的能力因此可以被利用来减少危害——如果做得正确的话。
当AI变得更有能力时,也存在帮助解决许多其他社会问题的乐观机会,而不仅仅是它们自己的影响。与自我改进的超级智能反乌托邦范式(其中AI霸主向人类宣示最佳实践)不同,共同改进范式建议协作帮助综合共识并找到解决问题的可行步骤。多人类和AI协作可以帮助汇聚观点,构建辩论结构,并帮助人类得出积极的结论和结果。
六、开放性科学与知识共享
如果人类想要改善其科学知识,最清晰的方法就是使用科学方法。这意味着进行可重现的科学研究并公开传播结果,以便其他人可以验证或建立在其基础上,集体知识可以进步。共同改进可以帮助这种知识在AI领域以及潜在的任何其他科学领域更快地进步。
研究团队注意到,目前许多工业实验室正在远离开放的AI研究。正如其他研究中所述,他们同意"对误用的担忧不应被用作减少开放性超过所需程度的借口,例如,当真正的动机是关于企业竞争力时。" 然而,在AI中,就像在其他科学领域一样,他们认为在需要时应该考虑管理开放性以应对社会危害,这应该是随着能力增加而进行的持续讨论。
这种平衡就像在分享医学研究成果时需要考虑的情况:我们希望促进科学进步和知识共享,但同时也要防止有害信息被恶意使用。关键是找到一个合适的平衡点,既不过度限制有益的研究进展,也不忽视潜在的风险。
七、与现有立场的比较和对比
研究团队的立场与人本AI的相关论述有关,但在他们的案例中,更具体地针对通过协作研究实现(共同)超级智能的目标。同样,其他工作倡导合作AI,并与机器寻找共同点,其中研究将是一个特例。然而,他们同意所有形式的人类-AI协作工作对于拥有超人AI的未来人类社会也是一个重要目标。
其他工作强调错位是一个具有挑战性的目标,并倡导AI的目标要以人为本的重要性。重要的是,研究团队的立场是这个具有挑战性的问题可以而且应该通过协作来解决。例如,与AI协作可能更容易帮助发现它们自己设计中的缺陷;然而,他们认为这项研究应该现在就在进行中——而不是在系统完全部署后再添加,那时就太晚了。
在对比不同立场时,一些研究描述了自主自我改进以及实现它的可能方式。相应地,大量工作也开发了各种技术贡献的实际实例化。一些研究倡导"体验时代",其中自我改进通过从AI自己的体验中自主学习来获得。这种观点暗示与人类合作很少,例如他们写道AI将"在材料科学、医学或硬件设计等领域自主设计和进行实验"。他们也承认这"为人类干预和调节代理行为提供了更少的机会,因此需要高标准的信任和责任"。
另一些研究者在实现自我改进目标时看到人类的作用很小。相比之下,研究团队设想一个世界,人类始终是不仅经济、科学,而且所有类型决策过程的必要但最大限度增强的部分。他们认为AI社区应该在追求这一长期目标时完全拥抱和实施这一愿景。
这种差异就像选择不同的城市发展模式:一种是完全自动化的智能城市,人类基本上是被动的受益者;另一种是人类与智能系统深度协作的城市,每个人都能在技术的帮助下发挥更大的作用。研究团队明确支持后一种模式。
八、结论与未来展望
说到底,这项研究为我们描绘了一幅与主流AI发展路径截然不同的图景。当大多数人都在想象AI最终会独立运行、不再需要人类参与的未来时,Weston和Foerster却提出了一个更加温暖人心的愿景:人类与AI永远携手合作,共同探索未知、解决难题。
他们的论证逻辑很简单却很有说服力。现在的AI虽然在某些方面很强大,但在理解人类价值观、做出道德判断、把握研究方向等方面还远远不如人类。与其急于让AI完全独立,不如充分利用这个宝贵的窗口期,教会AI如何与人类更好地合作。这样不仅能加速研究进展,还能确保AI的发展始终朝着对人类有益的方向前进。
这种共同改进的方式带来的好处是多方面的。首先,它能够更快地发现重要的范式转变。AI研究的历史告诉我们,每一次重大突破——从ImageNet和AlexNet的结合,到网络数据和Transformer的扩展,再到指令跟随数据和RLHF训练的应用——都需要人类研究者付出巨大努力,经历许多中间结果以及错误方向和死胡同。如果我们能改善研究能力,就能加速这个过程。与强大的AI系统进行共同研究,这些系统专门为与我们协作而构建,应该能加速找到当前缺失的未知新范式转变。
其次,相比直接的自我改进,这种方法提供了更多的透明度和可控性。人类始终在循环中,能够监督和引导整个过程,防止AI朝着错误或危险的方向发展。这就像有一位经验丰富的导师始终在身边,既能让学生自由探索,又能在关键时刻提供指导和纠正。
最重要的是,这种方法更加关注以人为中心的安全AI。与完全自主的AI自我改进系统可能出现目标错位(比如对"解决AI"的理解不考虑人类需求)不同,人类-AI协作能够确保发展方向始终与人类福祉保持一致。
当然,实现这个愿景需要我们在AI能力建设上投入更多资源。就像我们花费大量精力改进AI的编程技能一样,我们也需要专门开发AI的研究协作技能。这包括创建新的基准测试来衡量这些技能,构建训练数据和方法来改进这些基准,涵盖构成端到端研究流程的所有主要AI研究活动。
研究团队的这项工作为我们打开了一扇新的大门。它告诉我们,在追求超级智能的路上,我们不必选择要么被AI取代,要么永远落后的极端情况。相反,我们可以选择一条中间道路——与AI共同成长、共同进步,最终实现对双方都有益的共同超级智能。
这个愿景的实现可能不会一蹴而就,但它为我们指明了一个值得努力的方向。在这个充满不确定性的AI时代,这样一个强调合作而非竞争、重视人类价值而非单纯技术进步的研究方向,无疑为我们提供了宝贵的思路和希望。毕竟,最好的未来不是人类被AI取代的未来,而是人类与AI共同创造更美好世界的未来。
Q&A
Q1:什么是AI共同改进,它与传统的AI自我改进有什么区别?
A:AI共同改进是指人类与AI协作进行研究,共同提升彼此的能力,而不是让AI独自进化。传统自我改进试图尽快将人类从循环中移除,让AI自主研究学习;而共同改进强调人类始终参与其中,与AI协作解决问题,这样既能加速进展又更安全。
Q2:为什么Meta的研究团队认为人类与AI协作比AI独立发展更有优势?
A:研究团队认为有两个主要原因:首先是速度优势,人类与AI的互补技能可以更快找到重要的研究突破;其次是安全优势,人类在循环中能够监督和引导AI发展方向,防止出现与人类价值观不一致的错位问题,确保AI发展对人类有益。
Q3:这种人类-AI协作研究模式会如何改变未来的科技发展?
A:这种模式可能让科技发展变得更加透明、可控和以人为中心。不同于完全自动化的未来,它描绘了一个人类与AI深度协作的世界,每个人都能在AI帮助下发挥更大作用。在这个模式下,AI不是要取代人类,而是要增强人类能力,共同解决重要问题。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。