微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI风险治理研究的现实缺口:日常部署中的人工智能安全与可靠性

AI风险治理研究的现实缺口:日常部署中的人工智能安全与可靠性

2025-05-06 11:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-06 11:28 科技行者

在过去几年,生成式AI的发展一日千里,几乎渗透到我们工作和社交生活的方方面面。但在这场技术革命中,我们是否忽略了某些关键的安全问题?这个重要疑问正是美国社会科学研究委员会(SSRC)的AI披露项目团队试图回答的。由伦敦大学学院创新与公共目的研究所的Ilan Strauss、社会科学研究委员会的Isobel Moure和Sruly Rosenblat,以及O'Reilly Media的Tim O'Reilly共同完成的这项研究,于2025年4月30日发表在arXiv预印本平台上,标题为《AI治理研究的现实缺口:日常部署中的人工智能安全与可靠性》。有兴趣深入了解的读者可以通过论文编号arXiv:2505.00174v1访问原文。

一、研究背景:为什么我们应该关心AI的部署后安全问题?

想象一下你买了一辆新车。汽车制造商会在工厂里进行各种安全测试,但真正的安全问题往往出现在车辆上路后——当它遇到恶劣天气、糟糕的道路条件或不同驾驶习惯的司机时。同样的道理,AI模型在实验室里的表现可能与在现实世界中的表现大相径庭。

研究人员发现,当前的AI安全研究存在一个严重问题:大多数研究集中在模型开发阶段(也就是"部署前"安全),而几乎忽略了模型投入使用后的安全问题("部署后"安全)。这就像只关心汽车在出厂前的安全测试,而忽略了它在真实道路上行驶时可能出现的各种问题。

为什么这很重要?因为现在大型科技公司主导了AI研究,他们的商业目标与全面研究AI风险并不总是一致的。想象一下,如果汽车制造商自己负责所有安全测试,而没有独立机构进行监督,你会信任这种安全保障吗?这正是AI领域目前面临的挑战。

二、研究方法:如何全面评估AI安全研究现状?

研究团队分析了从2020年1月到2025年3月期间发表的9,439篇关于生成式AI的研究论文,从中筛选出1,178篇专注于安全和可靠性的论文。他们比较了五家主要AI公司(Anthropic、谷歌DeepMind、Meta、微软和OpenAI)和六所顶尖AI研究大学(卡内基梅隆大学、麻省理工学院、纽约大学、斯坦福大学、加州大学伯克利分校和华盛顿大学)的研究输出。

这就像一个考古学家,从数千件文物中精心挑选出特定类别的物品进行深入研究。研究团队使用OpenAI的o3-mini模型帮助确定论文是否属于"安全与可靠性"研究,然后将这些论文分类为八个子类别,包括模型对齐、伦理与偏见、可解释性与透明度等。

此外,他们还搜索论文摘要和标题中的关键词,寻找与高风险部署领域(医疗、金融、商业和版权)和特定能力(虚假信息、信息披露、行为影响和准确性)相关的研究。这有点像检查不同种类的安全带,看哪些得到了足够的注意,哪些被忽略了。

三、核心发现:AI安全研究的现状与缺口

研究发现了三个令人担忧的趋势:

首先,AI治理研究高度集中在少数科技巨头手中,这些公司拥有独特的资源和影响力。想象一个小镇,只有几家大公司控制着所有重要的基础设施和服务。研究显示,Anthropic、OpenAI和谷歌DeepMind的AI安全与可靠性研究引用次数远超任何主要美国学术机构。谷歌DeepMind的生成式AI研究引用次数甚至超过了排名前四的AI学术机构的总和。

其次,随着领先AI公司争相将强大的AI系统商业化,他们的研究重点越来越受商业利益驱动,而非全面的风险评估和缓解措施。就像一家餐厅可能更关心食物的美味程度而非完整的营养平衡。大多数企业治理研究专注于脱离实际应用的模型性能,而伦理和偏见研究——这对理解系统性、不合理的LLM行为差异或输出差异至关重要——现在只受到学术研究者的关注。

第三,也是最令人担忧的是,企业AI实验室严重忽视了部署阶段的行为和商业风险。只有4%的企业AI论文(学术界为6%)涉及高风险领域,如说服力、虚假信息、医疗和金融背景、信息披露或核心商业责任(知识产权侵犯、编码错误、幻觉)——尽管新出现的诉讼表明这些风险已经相当重要。

让我们用一个例子来说明这种缺口:Character.ai因其"设计成瘾性"的聊天机器人而面临诉讼,这些机器人据称鼓励与它们形成浪漫关系的青少年自残。尽管有这样的证据,Meta随后扩大了权限,允许其AI机器人进行显性浪漫角色扮演内容。同时,OpenAI取消了其Sora图像生成器对真实人物的模仿限制,实际上启用了深度伪造。这些案例表明,商业利益可能会超过安全考虑。

四、研究缺口的原因:为什么会出现这种情况?

为什么会出现这种研究缺口?研究者认为主要有两个原因:

一方面是商业激励和"存在风险"意识形态的影响。早期的OpenAI工作确实关注部署后评估,但随着时间推移,研究重点转向了存在风险和盈利应用。这就像一个原本关注全面交通安全的团队,逐渐将注意力集中在防止陨石撞击汽车这样的极端低概率事件上,同时忽视了日常的交通安全问题。

另一方面是数据获取的不对称性。企业和独立研究者之间存在深刻的数据获取不对称。企业对其部署模型的行为、使用模式和失败模式有完全的可见性,而独立研究者面临重大障碍,无法获取等效数据。想象一下,如果只有药品制造商才能看到药品在市场上的所有不良反应数据,而不与任何独立监管机构分享——这基本上就是AI行业目前的状况。

五、政策建议:如何弥合研究缺口?

那么,我们应该如何解决这个问题呢?研究者提出了一个关键建议:为了防范商业化驱动的风险,第三方研究人员(和审计人员)需要获取在真实环境中运行的AI系统数据。

商业激励虽然推动创新,但也可能促使企业承担风险,当这些风险与利润最大化的商业模式相冲突时,可能会降低安全防护措施。部署后监控研究对公众至关重要,但目前仅限于零散的AI事件数据库、过时或过度聚合的用户-LLM聊天数据,以及对模型的公共测试。对AI系统实际影响的真实世界可见性几乎为零。

研究者建议对已部署AI系统的遥测数据和文物进行结构化访问,以系统性地分析真实世界风险和伤害。监控和评估真实环境中的LLM现在对质量保证至关重要。但用于此目的的数据是企业实践的专有财产,导致社会失去了对AI持续风险和伤害的重要洞察。

研究者比喻AI遥测数据就像金融市场的交易数据,建议使用分层披露制度。对于高风险应用,企业应该公开一个安全API,流式传输三种隐私保护数据:差分隐私事件日志、系统操作跟踪,以及记录关键元数据(如版本号、训练方法和记录限制)的模型文物清单。这样,外部研究者就可以将在跟踪中观察到的行为与产生这些行为的特定模型特征联系起来。

六、结论:展望AI安全研究的未来

总的来说,这项研究揭示了一个令人担忧的趋势:随着商业部署加速,研究越来越集中于部署前领域,而高风险部署后研究仍然严重代表性不足。

AI研究已经高度集中在少数科技公司手中,这些公司拥有不成比例的影响力。谷歌DeepMind、Anthropic和OpenAI现在显著推动AI的研究议程,将优先事项转向技术模型对齐和评估方法,这些方法确实提高了性能,但强调的安全关注点与商业利益一致。

最令人担忧的是缺乏对部署阶段风险的关注。只有4%的企业AI论文和引用处理高风险领域,如说服、虚假信息、医疗和金融背景,或核心业务责任——即使诉讼表明这些风险已经实质性存在。广泛部署的缓解措施,如内容审核和基于遥测的监控,几乎没有研究。

这些发现表明了一个治理悖论:拥有关于实时AI系统全面数据的公司最没有动力公开研究由此产生的伤害。如果没有结构化获取部署遥测数据,外部研究者就无法建立监管机构所需的实证基础。

政策含义很明确:高影响AI部署的后部署证据——日志、跟踪和事件数据——应该成为常态。现有的可观察性堆栈已经在内部捕捉这些数据;将它们扩展到经认证的研究者会带来最小的开销,同时大大扩展公共风险评估工具包。安全港条款和分层访问API可以平衡责任关切与透明度。

总之,随着该领域的重心从大学实验室迁移到企业产品团队,社会对独立监督的需求从未如此之大。弥合这一差距不仅需要事件跟踪,还需要通过分层公共研究、治理和审计访问,对野外AI进行持续、结构化的可观察性。

这项研究得到了Alfred P. Sloan基金会、Omidyar网络和Patrick J. McGovern基金会的资助支持。如果你想了解更多详情或获取原始数据和代码,可以访问GitHub仓库:https://github.com/AI-Disclosures-Project/Real-World-Gaps-in-AI-Governance-Research

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-