在现代人工智能快速发展的时代,视觉语言模型(VLM)已经能够像人类助手一样帮助我们处理各种视觉任务。但你是否曾经思考过,同样的场景,不同的人会有不同的认知和期望?2025年6月,由武汉大学李永奇、周沈、李晓虎等学者领导的研究团队在论文《Aligning VLM Assistants with Personalized Situated Cognition》中提出了一个关键问题:如何让视觉语言模型根据不同人的背景和情况,提供个性化的帮助?这篇发表于arXiv(arXiv:2506.00930v1)的研究论文,探索了让AI视觉助手更好理解人类个性化情境认知的方法。
想象一下,当你和一位工程师同时看到一个"坏掉的秋千"的场景时,你们会有完全不同的反应。作为普通人,你可能担心孩子的安全,希望AI助手告诉你如何保护孩子避免受伤;而工程师则可能想要知道如何修复秋千,期待AI提供专业的修理建议。这正是研究团队关注的问题:同样的视觉场景,因人而异的认知和需求,要求AI助手提供个性化的回应。
要解决这个问题,研究团队首先需要一种方法来描述不同个体的多样性。考虑到人类多样性受年龄、社会经济地位等众多因素影响,研究团队借鉴了社会学中的"角色集合"(Role-Set)概念,将每个人定义为一组"角色@位置"的组合。比如,一个人可能同时是"家中的父亲"、"社区的消防员"、"博物馆的访客"等多重身份。这种简化但有效的方法,让研究团队能够在实验中模拟人类的多样性。
基于这一定义,研究团队构建了一个名为PCogAlignBench的基准测试集,包含了18,000个样本和20个具有不同角色集的个体。在这个基准测试中,每个样本包含了个体的角色集、图像和个体提出的问题。此外,测试样本还包括"指导标准",描述了"期望的个性化回应的特征",这为评估模型的个性化程度提供了标准。
研究团队还提出了一个名为PCogAlign的框架,用于训练视觉语言模型提供个性化的回应。这个框架分为三个步骤:首先,估计个体的情境认知和最佳行动;然后,通过协作代理采样多个个性化回应;最后,构建并使用一个认知感知和行动基础的奖励模型,迭代选择最佳回应。
PCogAlign框架的核心在于它能够理解个体的情境认知,并根据这种认知生成个性化的回应。在第一步中,框架使用语境学习方法来估计个体在特定视觉场景下的情境认知,包括对场景状态的认知、对身体和心理状态的认知,以及对适当下一步行动的认知。
在第二步中,框架设计了两个协作代理:关键点生成器(KeyG)和回应生成器(ResG)。关键点生成器利用个体的情境认知和期望的最佳行动,生成关键点,指导如何考虑个体的认知并改善个体的身体行为和心理感受。回应生成器则使用这些关键点重新生成回应。通过多次迭代,框架能够收集多个候选的个性化回应。
最后,框架构建了一个认知感知和行动基础的奖励模型,用于选择最佳回应。这个奖励模型通过负角色集来收集训练数据,例如,对于"老师@学校"的个体,"学生@学校"的角色集可以被视为负角色集,因为为学生设计的回应对老师可能不合适。奖励模型考虑个体的行动来判断回应是否满足个性化期望,从而选择最能引导个体采取最佳行动的回应。
研究团队在PCogAlignBench上进行了广泛的实验,结果显示PCogAlign框架在各种设置下都优于基线方法。具体来说,PCogAlign在"获胜率"(与基线方法相比的优势)上平均提高了2.4%。此外,人类评估结果也证实了自动评估方法的可靠性,显示人类评估者在88%的情况下与自动评估结果一致。
研究还发现,当使用不同的视觉语言模型时,PCogAlign框架始终表现出优势。例如,在MiniCPM-V-2_6模型上,PCogAlign(P)方法(框架的简化版本)在"获胜率"上比基线方法提高了19.8%。这表明该框架具有很好的适应性,可以应用于不同的视觉语言模型。
这项研究的创新之处在于它首次尝试让视觉语言模型理解并适应人类的个性化情境认知。传统的对齐方法通常关注一般性目标,如减少幻觉或符合通用人类价值观,而忽略了人类多样性所带来的个性化需求。PCogAlign框架通过理解个体的情境认知和期望行动,使视觉语言模型能够提供真正个性化的帮助。
研究团队也指出了一些局限性和未来的研究方向。首先,虽然角色集概念简化了人类多样性的表示,但实际生活中的个体多样性远不止于此,未来研究可以探索更全面的表示方法。其次,虽然实验证明了简单但有效的方法来估计个性化情境认知和最佳行动,但可能存在更好的方法来完成这一步骤。最后,实验中发现基于DPO的变体效果较弱,这表明可能需要更适合个性化对齐的偏好优化算法。
这项研究对我们日常生活的影响不容小觑。想象一下,未来的AI助手能够理解你的不同角色和情境,在你工作时提供专业建议,在你陪伴孩子时给出亲子互动的建议,或者在你旅游时推荐符合你兴趣的景点。这种个性化的AI助手将使技术更好地适应人类的多样性,而不是要求人类适应技术的局限性。
总的来说,武汉大学研究团队的这项工作为个性化视觉语言模型的发展开辟了新的道路,使AI助手能够更好地理解和满足不同人群的多样化需求。随着研究的深入,我们可以期待未来的AI系统能够更好地理解人类的个性化认知,提供真正符合个人需求的帮助。研究团队已将其构建的基准测试集和代码开源于GitHub(https://github.com/NLPGM/PCogAlign),有兴趣的读者可以通过该链接获取更多信息。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。