这项由新加坡国立大学的陈诺、段默明、林怀凯、王谦、吴嘉颖、何炳胜等研究团队完成的重要研究,发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2508.04586v1 [cs.CY]),有兴趣深入了解的读者可以通过https://arxiv.org/abs/2508.04586访问完整论文。这项研究就像给整个AI学术界做了一次全面体检,结果却发现这个看似繁荣的系统正面临着前所未有的危机。
当我们谈论人工智能的快速发展时,很容易想象到各种高科技产品和突破性应用。但很少有人关注到,支撑这一切进步的学术会议系统正在经历一场前所未有的危机。就像一座承载过重的桥梁开始出现裂痕一样,传统的AI学术会议模式正在自己的成功重压下摇摇欲坠。
研究团队通过分析大量数据发现了一个令人震惊的事实:过去十年间,AI研究人员的年均发表论文数量已经超过4.5篇,相比十年前翻了一倍多。这种增长速度就像滚雪球一样越来越快,预计到2040年代,每位研究人员平均每月要发表一篇论文。这不仅是一个令人咋舌的数字,更反映了学术界正陷入一种不可持续的"发表或死亡"恶性循环中。
更令人担忧的是环境代价。以2024年的NeurIPS会议为例,仅仅是参会者的往返飞行就产生了超过8254吨二氧化碳排放,这个数字超过了温哥华市一整天的碳排放量。同时,研究团队通过分析Reddit等社交平台上的讨论发现,超过71%与会议相关的帖子都表达了负面情绪,其中35%明确提及了心理健康问题,包括焦虑、倦怠和压力等词汇频繁出现。
面对这些严峻挑战,研究团队并非简单地提出批评,而是深思熟虑地提出了一个创新性解决方案:社区联邦会议模式(Community-Federated Conference, CFC)。这个模式就像把原本集中在一个巨大会场的万人大会,分散成多个地区性的小型聚会,但通过数字技术保持全球连接。这种方法既能保持学术交流的质量,又能显著减少环境负担和心理压力。
一、AI学术会议的四大核心使命正在受到冲击
要理解当前AI学术会议面临的危机,我们首先需要明白这些会议原本承担的四个重要使命。就像一座建筑物需要四根支柱来支撑一样,AI学术会议也依靠四个核心功能来维持其存在价值。
第一个使命是科学研究的推进。AI会议本质上是一个巨大的知识交换平台,研究人员在这里分享最新发现,就像古代的集市一样,只不过交易的不是商品而是思想和发现。国际机器学习会议(ICML)明确要求论文必须呈现"重要的、原创的、此前未发表的研究",而国际学习表征会议(ICLR)则专注于"深度学习、表征学习及相关领域的前沿研究"。当一项研究被顶级AI会议接受时,就意味着它获得了学术界的认可,其价值得到了验证。
第二个使命是知识传播和思想领袖的认可。这些会议不仅仅是发表新研究的地方,更是表彰杰出贡献的舞台。比如直接偏好优化方法获得了NeurIPS 2023年度杰出论文亚军奖,而Adam优化算法则因其在机器学习优化领域的持久贡献获得了时间检验奖。这些荣誉的授予过程就像奥斯卡颁奖典礼一样,不仅认可了优秀的工作,也为其他研究人员指明了方向。
第三个使命是建设学术社区。AI会议通过各种形式的互动活动来促进研究人员之间的联系和合作。NeurIPS鼓励举办工作坊,为讨论正在进行的工作和未来方向提供"非正式、动态的场所"。ICML的工作坊描述支持"研究人员分享最新结果和想法",而ICLR则明确声明它是"致力于推进人工智能分支发展的专业人士的首要聚会"。这些元素,如专题讨论和网络活动,能够激发新的合作伙伴关系,加速AI的发展。
第四个使命是履行社会责任,特别是推进多样性、公平性和包容性(DEI)。近年来,AI会议越来越认识到它们的"社会契约",将多样性、公平和包容的原则融入其核心使命。这涉及为代表性不足的群体提供差旅资助、建立指导计划、执行严格的行为准则等具体行动。通过积极培育更加多样化和公平的社区,会议旨在减轻AI系统中的偏见,确保人工智能的未来由更广泛的视角来塑造,最终更好地为全人类服务。
然而,研究团队发现,这四根支柱都在承受着前所未有的压力。科学使命受到论文数量爆炸式增长的冲击,AI研究的生命周期(通常少于7个月)与年度会议周期之间的矛盾导致许多研究在正式发表时已经过时。知识传播受到过度竞争、追求最佳性能指标和统计显著性操作的侵蚀,创造了进步的假象。社区建设因为分散的引用网络和加剧的焦虑而受损,这在在线讨论中的负面情绪中得到了体现。这些挑战因高碳排放、场地限制和心理健康压力而加剧,所有这些都违反了社会契约并加剧了不平等。
二、数据揭示的惊人真相:AI学术界正在"内卷"到崩溃
为了准确诊断AI学术会议面临的问题,研究团队采用了多种数据收集和分析方法,就像医生使用不同的检查手段来诊断疾病一样。他们的"体检报告"基于四个主要数据源:CSRankings.org提供的2015-2024年出版量和教员隶属关系数据,会议官方网站的统计数据(特别是NeurIPS的数据),从Reddit的r/MachineLearning子版块收集的405个讨论帖子,以及从已接受论文中提取的作者机构信息用于建模全球旅行模式。
通过这些数据,研究团队采用了几种分析技术。他们追踪了总发表量并计算了"人均贡献"指标,这个指标通过将发表数量除以有效教员数量来衡量学术生产力压力。在环境影响建模方面,他们通过将活动数据(从作者机构估算的往返飞行距离)乘以既定的排放因子来计算会议旅行的碳足迹。社区情绪分析使用VADER情绪工具来确定整体情绪极性,并进行关键词频率分析来衡量"焦虑"和"倦怠"等心理健康指标的普遍程度。
分析结果揭示了一个令人震惊的现实。在发表压力方面,AI领域的年均发表率已经超过4.5篇论文,十年内翻了一倍,远远超过了其他计算机科学领域的相对稳定增长。更令人担忧的是,这种增长不仅仅是线性的,而是呈指数级增长,决定系数R?=0.978,p<0.001,这意味着增长趋势极其显著和可预测。
研究团队还发现了一个有趣的现象:虽然AI领域的教员数量在增长,但增长速度远远跟不上论文发表的速度。过去十年间,理论、系统和跨学科应用等非AI领域的教员数量保持相对稳定且较低,而AI领域的教员数量几乎翻了一番。更引人注目的是,从2023年到2024年,系统和理论领域甚至出现了下降趋势,这可能表明存在AI快速增长带来的"虹吸效应",可能阻碍其他领域的均衡发展。
当研究团队深入分析人均贡献时,发现了更加严峻的现实。AI教员的发表率呈超线性增长,远超其他领域的相对稳定,达到其他非AI领域人均产出的两倍多,十年内翻倍,超过每人每年4.5篇论文。如果这种趋势继续下去,预计到2040年代人均产出将超过每月一篇论文。这种与AI会议核心使命的错位,特别是知识传播方面,通过营造高压环境来削弱有意义的交流,加剧心理健康压力,如焦虑妨碍开放合作,过度竞争抑制创造力和冒险精神。
三、环境代价:每次大会的碳足迹都堪比一座城市
当谈到AI会议的环境影响时,数字本身就足以说明问题的严重性。研究团队对这个问题进行了详细的调查,就像环保组织监测工厂排放一样系统和严格。
以2024年的NeurIPS会议为例,这个在温哥华举办的会议吸引了来自全球的研究人员。由于大多数AI会议都要求被接受的作者必须亲自参会,论文发表量的增长直接转化为巨大的旅行需求。研究团队估算了3836名独特的第一作者(从4037名去重前,实际参会者13307人)从他们的机构往返飞行的排放量。这些参会者主要来自亚洲、欧洲和美洲,地理分布图显示出明显的集中趋势。
使用标准的"活动数据×排放因子=排放量"公式(详细计算过程在论文附录中),仅飞行排放就达到8254吨二氧化碳当量,这个数字超过了拥有约68万居民的温哥华市的日均碳排放量(基于年排放250万吨二氧化碳当量,约每日6849吨二氧化碳当量)。这意味着一次会议的旅行排放就超过了一个主要城市一整天的排放量。
这些环境影响不仅数字惊人,还带来了社会公平问题,使来自代表性不足地区或具有环保意识的研究人员更难参与。同时,它们还给作者带来了不必要的经济和时间负担,包括签证和机票费用。
为了更全面地了解情况,研究团队还分析了ICML会议的排放情况(基于前200个第一作者机构的5天活动),重点关注旅行(交通和住宿)和会场(食物和能源消耗)方面。正如预期的那样,交通在非混合式ICML和ICLR会议的排放中占主导地位,与其他研究的比例相符。更令人担忧的是,来自被接受作者的排放在过去五年中爆炸式增长,增长了四倍多。
这种轨迹考验着组织者的可持续发展承诺,使会议在参会人数增长的情况下在环境上变得不可持续,违背了社会契约。此外,住宿和餐饮带来的经济压力将成为作者的抱怨点,也将成为组织者选择会场时需要考虑的因素。
四、心理健康危机:学术界的"内卷"正在摧毁研究者的幸福感
AI会议日益增长的规模和竞争激烈的性质也对不同参与群体(作者、审稿人、参会者)的情绪健康和情绪产生影响。就像高压锅中的蒸汽一样,学术压力如果没有合适的出口,最终会导致整个系统的爆炸。
研究团队系统地调查了公共论坛上的这些情绪。他们查询了Reddit子版块r/MachineLearning,使用"ICLR"、"NeurIPS"、"ICML"和"机器学习会议"等术语来识别最相关和高活跃度(标记为"热门")的前25个讨论帖子。他们使用VADER(价态感知词典和情感推理器)——一个针对社交媒体文本优化的基于词典的情感分析工具——分析了每个帖子的评论。重点检测负面情绪指标或改进建议,并将采样的代表性评论汇总构建成词云,突出社区内反复出现的主题和关切。
分析结果令人震惊。在搜索包含"ICLR"、"ICML"、"NeurIPS"和"机器学习"等关键词的Reddit帖子时,发现了对顶级机器学习会议持续的社区级负面情绪。明确的情绪化语言(如焦虑、沮丧、痛苦、厌恶)频繁出现,一些帖子甚至被标记为心理健康相关。在前十个相关帖子中,有几个包含表明心理健康恶化的评论。
通过对405个相关帖子(2022-2025年)的大规模视觉分析,研究团队发现超过71%的与会议相关的讨论表达负面情绪,表明社区普遍不满。更令人担忧的是,这些负面帖子中超过三分之一(34.6%)提及与心理健康痛苦相关的术语,如"焦虑"、"倦怠"和"压力"。
这种由公开批评和压力推动的有毒环境破坏了会议的核心目标。它通过用焦虑代替合作来侵蚀社区建设,通过阻止突破所必需的风险承担来抑制真正的知识共享。它还违反了DEI的社会契约,因为焦虑文化本质上就不具包容性。这种心理压力是系统压倒性规模的一个症状。
作者的心理压力也可能源于相关动态,正如NeurIPS提交统计数据所显示的那样。在大量提交的压力下,被接受的论文呈现大致线性增长(线性回归模型下R?=0.964,p<0.001),而拒稿以更快的近指数速度激增(对数线性回归模型下R?=0.937,p<0.001)。这不可避免地驱动更多重复提交,进一步加剧审稿人能力紧张。使问题复杂化的是,来自之前提交的最先进基准可能在下一个周期变得过时,在作者中培养了一种扭曲的心态,他们以牺牲真正创新为代价追求过度积极的评价。
例如,研究表明AI智能体能力大约每七个月翻倍。由于从提交到展示的会议周期也持续近七个月,这意味着研究在发表时可能已经过时,使社区的大量努力变得低效。这种动态破坏了社区建设和知识共享。此外,大量接受论文给组织者带来负担,爆炸性的参会人数、签证限制和其他后勤约束促使NeurIPS自2022年以来采用线上线下混合格式。
五、物理极限:连最大的会场都装不下了
随着学术会议在规模和范围上的增长,物理场地越来越无法跟上步伐。这种压力在NeurIPS等旗舰AI会议上表现得特别明显,就像一个快速成长的孩子很快就穿不下原来的衣服一样。
NeurIPS 2024的主办地温哥华会议中心最大容量约为18000名参会者。认识到注册需求正在接近这一限制,NeurIPS 2024对非作者注册实施了抽签系统。虽然从后勤角度来看这是必要的,但这种政策引入了一层人为稀缺性,限制了学生、早期职业研究人员和非附属参会者的参与,而这些人可能从面对面参与中受益最大。
这种限制的影响超出了后勤范畴。减少的准入阻碍了自发互动、指导和社区建设的机会,特别是对于那些在既定研究网络之外的人。它还损害了学术会议应该维护的公平参与原则。随着实体参会人数持续增长,即使是最大的场地也不太可能提供包容性解决方案,揭示了中心化模式的结构性限制,突出了对更灵活和公平替代方案的需求。
这种场地容量瓶颈不仅仅是一个技术问题,它实际上违背了学术会议的基本价值观。当会议开始采用抽签系统来决定谁能参加时,它就从一个开放的知识交流平台变成了一个排他性的精英聚会。这种变化特别伤害了那些最需要这种交流机会的人:研究生、博士后研究员,以及来自资源较少机构的研究人员。
六、为什么小修小补解决不了根本问题
面对第四节详述的日益严重的挑战,AI社区已经开始尝试对传统会议模式进行渐进式调整。然而,研究团队发现,这些善意的措施往往只是治标不治本,就像给漏水的房子不断打补丁,却不修复根本的结构问题一样。
一个典型的例子是限制每位作者提交论文数量的提案,这被应用于管理提交量。然而,这种供给侧约束本质上是一个零和博弈。它并不能减少巨大的机构发表压力,只是转移了这种压力,迫使研究人员更加策略性但压力并不减少。这种限制可能不成比例地惩罚需要建立发表记录的初级研究人员,或者在多个创新前沿工作的高产实验室。最重要的是,它对驱动倦怠和阻碍高风险、长期研究的系统性"发表或灭亡"文化毫无作用。这只是对文化创伤的行政补丁。
类似地,采用多地点或卫星会议(如NeurIPS 2025在墨西哥城和哥本哈根举办平行活动)直接回应了场地容量限制,旨在减少部分参与者的长途旅行。然而,多地点会议仍然将整个社区的审稿负担和心理健康焦虑集中到相同的狂乱年度周期中。它保持了中心化权威和高风险的、全有或全无的评估过程。它缓解了一些旅行问题,但仍然未能解决审稿人倦怠、作者努力升级和任何有时间限制、高成本活动固有的排斥性等核心问题。它还可能无意中创造一个双层系统,其中一个场地被认为更有声望,从而违背了社会契约下公平参与的目标。
研究团队认为,对中心化模式的渐进式修补已经不够了。一个持久的解决方案需要拆除其核心组件,包括中心化结构、同步化截止日期和单一化格式,并围绕去中心化、灵活性和社区代理权重建系统。
七、社区联邦会议:一个全新的解决方案
面对传统中心化单场地会议模式的崩溃,研究团队提出了一个根本性的重新思考:社区联邦会议(Community-Federated Conference, CFC)模式。这个创新框架就像从传统的大型购物中心模式转向现代的线上线下融合零售网络一样,既保持了全球连接,又实现了本地化服务。
CFC模式提出了一个可持续、公平且可扩展的学术会议组织框架。其指导原则可以概括为"全球标准,本地实现",通过将会议的三个传统功能解耦来实现:同行评议和出版、知识传播、以及社区建设。这些功能被重构为不同但相互连接的层次。
第一层是统一的全球同行评议和出版系统。这一层引入了一个由学术学会联盟(如AAAI、ACM)管理的中心化、高质量数字平台。提交和评审全年滚动进行,独立于任何物理会议。这种时间解耦减轻了审稿人负担,允许更深思熟虑的反馈,解决了第四节中提出的担忧。被接受的论文在全球认可的会议录中发表,确保学术认可和可见性。这个过程也可以通过自动化来支持。基于自然语言处理的工具可以协助审稿人论文匹配、检测利益冲突并标记异常评审,减少管理大规模会议涉及的人工工作量。
第二层是用于传播和网络的联邦区域中心。一旦被接受,作者在他们选择的区域中心展示他们的工作。这些中心由大学、当地研究实验室或学生主导的团体组织,通常接待500到1500名参与者。这种联邦模式直接解决了当今会议面临的主要后勤和可持续性挑战。它消除了对超大场地的需求,通过鼓励区域旅行减少碳排放,降低经济门槛,促进更大的多样性、公平和包容。在这些更小、更专注的聚会中,研究人员可以进行有意义的互动,避免超大会议的匿名性和心理压力。
第三层是数字同步和协作系统。使CFC模式区别于独立活动集合的是统一的数字层。这包括一个全球全体会议轨道,从轮流的锚点中心向所有其他中心直播主题演讲和颁奖演讲。此外,永久的数字海报厅允许异步讨论所有被接受的论文,而主题虚拟频道(如Slack或Discord)连接跨地区从事类似主题的研究人员。通过这种结构,本地参与与全球话语保持深度连接,实现广泛协作而无需物理聚合。
与中心管理的多地点格式不同,CFC模式是由社区从头开始构建的。与通常将远程参与视为次要的传统混合会议不同,CFC中的数字层是完全集成和等价值的。通过解耦和分布学术会议的核心功能,CFC模式提供了一个有弹性和前瞻性的架构。它不仅解决了当前系统的不足,还推进了包容性、可持续性和智力交流的核心价值。
这种模式的优势是多方面的。从环境角度来看,由于90%以上的参会者将来自区域中心,碳排放、旅行和成本将显著减少。从社区建设角度来看,50-200人的区域中心培养更强的同伴联系和归属感。从知识传播角度来看,滚动同行评议周期和多个轻量级中心实现更频繁的结果传播。从社会公平角度来看,联邦中心结合强大的数字层确保广泛和公平的参与,无论物理容量如何。
八、实施CFC模式将如何改变学术交流的未来
研究团队提出的社区联邦会议模式不仅仅是对现有问题的技术性修补,而是对整个学术交流生态系统的根本性重新构想。这种模式就像从传统的广播电视转向现代的流媒体平台一样,代表着一种范式的根本转变。
在实际运作中,CFC模式将彻底改变研究人员的会议体验。以前,一个来自亚洲的研究人员如果想参加在美国举办的顶级AI会议,需要经历长途飞行、时差调整、高昂的住宿费用,然后在一个拥挤的万人会场中努力寻找有意义的交流机会。而在CFC模式下,这位研究人员可以参加在本地举办的区域中心,与几百名同样专业的研究人员进行深入交流,同时通过数字平台观看全球顶级专家的主题演讲,参与跨地区的学术讨论。
这种变化的影响是深远的。首先,它将大大降低参与学术交流的门槛。不再有签证问题、不再有高昂的国际旅行费用、不再有因为抽签系统而被拒之门外的风险。这对于来自发展中国家的研究人员、资金有限的学生,以及有家庭责任无法长途旅行的研究人员来说,意义重大。
其次,这种模式将促进更加多元化和包容性的学术环境。当每个区域都有自己的中心时,不同文化背景、不同研究传统的学者将有更多机会在平等的基础上交流。这不仅有助于打破西方学术界的话语垄断,也能让AI研究更好地反映全球的多样性和需求。
第三,CFC模式将有助于缓解当前学术界面临的心理健康危机。在一个500-1500人的区域中心,研究人员更容易建立真实的人际联系,获得有意义的反馈和支持。这种环境更有利于学术合作的建立,也减少了大型会议中常见的焦虑和压力。
从长远来看,这种模式可能会催生新的学术协作模式。当地理距离不再是主要障碍时,研究人员将更多地基于研究兴趣和方法论相似性来选择合作伙伴,而不是基于地理位置或机构声望。这可能会导致更加创新和跨界的研究项目。
当然,实施这样一个根本性的变革也面临着挑战。需要建立新的技术基础设施来支持全球协调的数字平台,需要制定新的质量控制标准来确保分散化不会降低学术水平,需要重新思考学术评价体系以适应新的发表模式。但正如研究团队所指出的,这些挑战相比于当前系统面临的生存威胁,是完全可以克服的。
结论部分,这项来自新加坡国立大学的研究为我们揭示了一个令人深思的现实:那些推动科学进步的学术会议系统本身正在成为进步的障碍。就像一辆超载的卡车最终会被自己的重量压垮一样,传统的AI会议模式正在被自己的成功所摧毁。
说到底,学术会议的本质是促进知识的交流和创新思想的碰撞。但当这个系统开始阻碍而不是促进这种交流时,改变就成为了必然。研究团队提出的社区联邦会议模式为我们提供了一个具体而可行的替代方案,它不仅能解决当前的危机,还能为未来的学术交流奠定更可持续和包容的基础。
这种变革的意义远超出学术界本身。在一个越来越依赖人工智能技术的世界里,如何组织和促进AI研究的交流将直接影响技术发展的方向和速度。如果我们能够建立一个更加开放、可持续和包容的学术交流系统,那么由此产生的AI技术也更有可能服务于全人类的福祉,而不仅仅是少数精英群体。
归根结底,这项研究提醒我们,技术进步不仅仅是关于算法和模型的改进,也关于支撑这些创新的社会和制度结构。当我们在赞叹AI技术的神奇能力时,也应该关注那些让这些奇迹成为可能的人们是否能在一个健康、可持续的环境中工作。只有这样,我们才能确保人工智能的发展真正造福于所有人。对于普通读者来说,这项研究的价值在于让我们看到了科学进步背后的人性面,理解了学术界面临的挑战,也为我们思考如何构建更好的知识共享系统提供了启发。毕竟,在这个信息时代,我们每个人都是知识网络的一部分,都有责任为建设一个更加开放和包容的知识环境贡献力量。
Q&A
Q1:社区联邦会议模式是什么?它是如何工作的?
A:社区联邦会议模式是一种全新的学术会议组织方式,它将传统的大型集中式会议分解为三个层次:全球统一的论文评议和发表系统、分散在各地区的小型会议中心(500-1500人),以及连接全球的数字协作平台。就像把万人大会场变成多个本地聚会点,但通过网络技术保持全球连接。
Q2:为什么说传统AI会议模式不可持续?主要问题在哪里?
A:研究发现四大问题:科学上,研究人员年均发表论文超过4.5篇,十年内翻倍;环境上,单次NeurIPS会议的碳排放超过温哥华市一天的排放量;心理上,71%的相关网络讨论呈负面情绪,35%提及心理健康问题;物理上,连最大会场都装不下参会人数,需要抽签限制参与者。
Q3:社区联邦会议模式对普通研究人员有什么好处?
A:这种模式将大大降低参会门槛,研究人员无需长途旅行和高昂费用就能参与高质量学术交流;在更小规模的地区中心能建立更有意义的人际联系;减少签证、住宿等障碍;缓解大型会议带来的焦虑和压力;同时通过数字平台仍能接触到全球顶级研究成果。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。