当我们看到一个人在炎热的夏日撑伞时,我们立刻知道这是为了遮阳避暑,而不是防雨。这种基于日常经验的快速判断能力就是常识推理。然而,让人工智能掌握这种看似简单的能力却异常困难,特别是在涉及不同语言和文化背景时,挑战更是成倍增加。
这项由美国俄勒冈大学计算机科学系的Nguyen Trung Ngo和Thien Huu Nguyen教授,以及Adobe研究院的Franck Dernoncourt博士联合完成的突破性研究,于2025年8月发表在计算机科学领域的重要学术会议上。研究团队开发了一个名为mSCoRe(多语言可扩展技能导向常识推理基准)的全新测试系统,专门用来评估大语言模型在不同语言和文化环境下的常识推理能力。感兴趣的读者可以通过arXiv:2508.10137访问完整论文。
现有的AI常识推理测试系统就像只在英语国家举办的单语种考试,无法准确衡量AI在全球化环境中的真实表现。研究团队发现了三个关键问题:首先,现有测试主要集中在英语或中文等单一语言上,即使有多语言版本,也只是简单翻译,无法捕捉文化特有的细微差别。其次,这些测试缺乏系统性的难度调节机制,无法跟上快速发展的AI能力。最后,它们无法深入分析AI的推理过程,就像只看考试分数而不了解学生的解题思路。
mSCoRe系统的设计理念可以用"三位一体的智能测试工厂"来形容。首先是全面覆盖性,这个系统涵盖了英语、德语、法语、中文和日语五种语言的一般常识知识,同时包含丰富的跨文化社会常识内容。这就像建造了一个多语言、多文化的综合考场,确保AI能在不同语言环境中都接受公平的测试。
技能导向分析是该系统的核心创新之一。研究团队将人类推理过程细分为十种基本技能,分为三大类别。逻辑推理类包括归纳推理、演绎推理和溯因推理,就像我们从具体事例总结规律、从一般原则推导结论,或是寻找现象背后最可能的原因。情境推理类涵盖了类比推理、反事实推理、概率推理、时间推理和空间推理,帮助我们在不同情况间找到相似之处、思考"如果当时不这样做会怎样"、评估事件发生的可能性,以及理解时空关系。社会伦理推理类则包括社会推理和道德推理,用于理解人际互动和做出符合伦理的判断。
可扩展性是该系统的另一个重要特色。它采用了一种巧妙的"渐进加难"机制,通过扩展背景信息、调整答案选项和增加推理步骤来逐步提高题目难度。这就像游戏中的关卡设计,每个级别都在前一级的基础上增加新的挑战元素,确保能够准确测试不断进步的AI系统。
研究团队采用了一种独特的"原子推理步骤"概念来分析AI的思维过程。每个原子推理步骤被定义为一个不可再分的推理单元,主要使用一种特定的推理技能。这就像把复杂的数学证明分解成一系列基本的逻辑步骤,每一步都清晰明了,不能进一步简化。最优推理路径要求使用最少的原子推理步骤数量,同时保持逻辑连贯性,确保每一步都对缩小答案范围有实质性贡献。
在数据生成方面,研究团队设计了一个精心构建的四步流程。第一步是数据筛选,使用AI评判系统根据常识性、复杂性和可扩展性三个标准对候选题目进行评分,优先选择既具有高度常识性又有适当复杂性的题目,同时保持进一步扩展的灵活性。第二步是结构化推理生成,为每个选定的问答对生成相关的常识背景和详细的推理过程,每个推理步骤都明确标注使用的推理技能、推理文本和排除的选项。
第三步是复杂性扩展,这是系统的核心创新之一。研究团队通过三个子步骤实现难度升级:背景扩展增加额外的情境细节以提高推理要求,选项调整确保正确答案在语义上与原答案相似,同时引入一个看似合理但实际错误的新选项,推理完善则在原有推理过程基础上增加一个额外的推理步骤来排除新增的错误选项。第四步是常识隐含化,将明确的背景信息与问题融合,生成一个隐含背景的常识问题,要求AI依靠内在的常识知识来确定正确答案。
mSCoRe系统包含两个主要子集,分别针对不同类型的常识推理。mSCoRe-G专注于一般常识推理,以多语言常识问答数据集mCSQA为基础,评估对物理因果关系、时间关系和基本世界动态的理解,涵盖五种语言。mSCoRe-S则专注于社会常识推理,基于CultureBank数据集,该数据集包含来自TikTok和Reddit的真实社会问题,专门测试对社会互动、文化规范和不同文化背景下行为期望的理解。
整个数据集包含5600个实例,其中4000个用于一般常识推理,1600个用于社会常识推理。每种语言创建200个示例,复杂度从0级(原始问答对)到3级(经过三轮扩展),确保了数据的丰富性和多样性。每个实例都经过精心设计,从简单的常识判断逐步发展为需要多步推理的复杂问题。
研究团队在八个最先进的大语言模型上进行了全面评估,这些模型代表了当前AI发展的不同路径。商业模型包括GPT-4o和OpenAI o1系列,其中o1是专门针对复杂推理任务优化的推理增强模型。开源模型包括不同规模的LLaMA-3.3-70B和LLaMA-3.1-8B,以及基于LLaMA架构的推理专用模型DeepSeek R1的蒸馏版本。多语言模型Aya-32B则代表了在200种语言上训练的通用多语言能力。
评估结果揭示了当前AI系统在常识推理方面的多个重要特征。在一般常识推理方面,随着复杂度级别提升,所有模型的性能都出现持续下降。GPT-4o在所有语言和复杂度级别上都表现最佳,平均准确率从0级的79.2%下降到3级的69.5%。令人意外的是,开源模型LLaMA-3.3-70B的表现与GPT-4o非常接近,甚至在社会常识推理上表现更为突出,平均准确率达到81.8%,比GPT-4o高出约5%。
多语言表现方面,在一般常识推理中,不同语言的性能相对均衡,这可能是因为种子数据集中的语言都是中高资源语言。然而,在社会常识推理中,大多数模型在Reddit来源的问题上比TikTok来源的问题表现更好,这表明AI可能在处理更个人化的日常生活问题时仍有困难。
模型规模的影响呈现出有趣的模式。从8B参数到70B参数的开源模型之间存在显著性能差距,但从70B参数到数千亿参数的闭源模型之间的改进呈现递减趋势。这表明简单的参数扩展可能不足以解决常识推理问题,特别是在理解社会互动和文化规范方面。
推理增强训练的效果也值得深思。虽然最先进的推理增强模型o1在英语上表现最佳,但在其他语言上却落后于GPT-4o和LLaMA-3.3-70B等通用模型。这表明推理增强训练可能会降低常识推理能力,很可能是由于训练数据过分专注于编程和数学等技术任务。有趣的是,较小规模的模型确实能从推理增强训练中受益,8B参数的LLaMA-3.1模型在英语和日语上表现失常,但R1-8B却表现正常。
复杂性扩展分析显示,当研究团队将测试扩展到6级复杂度时,每个模型的准确率都持续下降。最显著的性能下降出现在0级到2级之间,表明即使相对简单的复杂性扩展也会给大语言模型带来实质性挑战。在更高难度级别(3级到6级),下降速度明显放缓,这种平台效应表明当前的复杂性扩展方法可能已达到饱和点。
技能类型利用分析揭示了AI推理模式的重要局限性。在一般常识推理中,参考推理过程和模型生成的推理过程都主要使用逻辑推理技能,演绎推理最为常见。然而,参考分布在更高复杂度级别显示出更大的技能多样化,更多地融入情境推理,特别是类比推理和概率推理。相比之下,像o1这样的模型在所有复杂度级别都过度依赖演绎推理。
在社会常识推理中,参考分布显示出更平衡的技能利用,来自三个类别的技能都被使用,社会伦理推理在高级别问题中变得更加重要。虽然o1模型确实融入了一些社会推理技能,但它仍然过度依赖逻辑推理来处理更适合使用社会和情境推理的场景。这种僵化的推理模式很可能解释了模型在更高复杂度问题上的性能下降。
推理分类法的比较实验进一步证实了细粒度技能分类的价值。研究团队测试了几种不同的推理指导方式:标准思维链推理、仅使用逻辑推理技能的限制版本、使用三个一般类别的简化版本。结果显示,尽管需要模型区分更多技能类型,细粒度分类法却产生了最佳结果。仅逻辑推理方法在一般常识任务上表现相对较好,但在社会任务上表现较差,而一般类别设置的表现也不如细粒度方法。
推理效率分析展现了另一个重要发现。参考推理过程显示随着任务复杂度增加,推理步骤数呈现清晰的线性增长,社会常识推理在每个级别都比一般常识推理需要更多步骤。GPT-4o的推理过程显示出类似的上升趋势但斜率更缓和,而o1的推理过程无论任务复杂度如何都保持近似恒定的步骤数(约3步)。这些发现表明,根据任务需求动态调整推理深度对于维持复杂度升级时的性能可能至关重要。
不同推理技能分类法的对比实验证明了该研究方法的有效性。使用思维链提示而不要求技能识别的基线方法明显劣于所有结构化技能导向方法,特别是在更高复杂度的社会常识推理中。这表明没有明确技能分类的推理可能不足以应对更复杂的常识情况。
这项研究的意义远不止于提供了一个新的测试基准。它为我们理解AI的推理局限性提供了前所未有的细粒度分析工具,揭示了当前最先进的大语言模型在处理需要灵活推理策略的复杂常识问题时的根本性缺陷。研究发现,尽管这些模型在许多任务上表现优异,但它们往往过度依赖单一的推理模式,缺乏人类在面对不同情境时灵活切换推理策略的能力。
更重要的是,这项研究强调了文化意识和多语言能力在AI发展中的重要性。在全球化的今天,AI系统需要理解不同文化背景下的社会规范和行为期望,而不仅仅是掌握语言翻译能力。研究表明,即使是最先进的多语言模型在处理文化特有的社会常识时仍显不足,这为未来的AI训练方向提供了重要指导。
研究团队提出的原子推理步骤概念和技能导向分析方法也为AI系统的可解释性研究开辟了新途径。通过将复杂的推理过程分解为可理解和可分析的基本单元,研究者能够更好地理解AI的决策过程,识别其推理错误,并针对性地改进模型设计。
这项研究对AI训练方法学也提出了重要启示。目前流行的推理增强训练主要集中在数学和编程等形式化领域,虽然在这些专业任务上效果显著,但可能以牺牲常识推理能力为代价。研究结果表明,未来的AI训练需要在专业技能和常识推理之间找到更好的平衡,开发更全面的训练策略。
该基准系统的可扩展设计特别值得关注。随着AI能力的快速提升,固定难度的测试很快就会变得过于简单。mSCoRe的动态复杂性扩展机制确保了它能够跟上AI发展的步伐,为持续评估和改进AI系统提供了有效工具。这种前瞻性设计对于长期的AI研究具有重要价值。
该研究也为跨学科合作提供了典型案例。通过结合计算机科学、认知科学、语言学和文化研究的见解,研究团队创建了一个既技术先进又文化敏感的评估系统。这种跨学科方法在AI研究中越来越重要,特别是在处理涉及人类认知和社会行为的复杂问题时。
最后,这项研究为AI的实际应用提供了重要参考。在智能客服、教育助手、文化交流平台等需要深度理解人类常识和文化差异的应用场景中,这种细粒度的常识推理评估能够帮助开发者识别和改进AI系统的局限性,确保它们能够在真实世界中提供更可靠、更文化敏感的服务。
说到底,这项研究揭示了一个重要事实:尽管大语言模型在许多方面表现出了令人印象深刻的能力,但它们在常识推理方面仍有很长的路要走。特别是在需要灵活运用不同推理策略、理解文化差异和处理社会情境的任务上,现有的AI系统还远未达到人类水平。然而,正是这种诚实的评估和深入的分析为未来的改进指明了方向,让我们对AI真正理解和融入人类社会的那一天充满期待。
Q&A
Q1:mSCoRe基准系统相比现有的AI常识推理测试有什么独特优势?
A:mSCoRe系统有三大独特优势:首先是全面的多语言和跨文化覆盖,不仅支持五种主要语言,还能捕捉文化特有的社会常识;其次是创新的技能导向分析,能够深入分析AI使用了哪些具体的推理技能;最后是动态的复杂性扩展机制,可以随着AI能力提升而调整测试难度。
Q2:为什么推理增强训练的AI模型在常识推理上表现反而不如通用模型?
A:研究发现推理增强模型如OpenAI o1过度专注于数学和编程等技术领域的训练,导致在处理需要社会理解和文化敏感性的常识问题时能力下降。这些模型习惯于使用单一的演绎推理模式,缺乏人类在不同情境下灵活切换推理策略的能力。
Q3:普通人如何理解AI在常识推理方面还存在哪些不足?
A:AI目前就像一个只会按照固定公式解题的学生,虽然在专业领域很厉害,但面对需要生活经验和文化理解的问题时就显得僵化。比如它们很难理解为什么在不同文化中同样的手势会有不同含义,或者无法像人类一样根据具体情境灵活调整推理方式。
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。