依靠计算机即时发现坏人的踪迹当然很好,问题是AI系统的能耐远不止于此。如果AI能够观察我们在手机触控屏上的操作并正确推断出当前使用的具体应用乃至键入内容,又该怎么办?
此事绝非危言耸听,现代计算机视觉技术已然掌握了我们之前只在电影里见识过的卓越能力。我们完全可以将视频加载至AI系统当中,要求其具体观察低分辨率帧内的每个细节,并通过少量训练与强大的算法实现图像内容“增强”。如此神奇,又如此强大。
这事听起来似乎简单而美好,但除了自动驾驶功能、癌症检测乃至计算照片中的物体个数之外,这项技术还有可能带来我们难以预见的种种威胁。
聪明的人类总会脑洞大开,由他们训练出的AI系统也许很快就能学会如何根据按键操作或手拗移动推断出输入的文本。这事绝对细思极恐,稍后我们会深入做出解释。
首先需要强调的是,自2017年以来,计算机视觉技术已经取得了长足进步。AI系统已经从分不清乌龟与步枪,发展到如今仅借助少量数据即可做出令人难以置信的高精度推理。例如,研究人员证明计算机单靠AI接收到的生物识别信息即可对用户进行身份验证;心理学家甚至还利用按键分析数据开发出自动心理压力检测系统。
研究人员甚至在训练 AI模仿人类打字活动,借此开发出更强大的拼写、语法乃至其他交流工具。总而言之,我们正在指导AI系统获得绝大多数人类都不具备的能力——通过手指运动推断输入内容。
一旦AI掌握了这种能力,也就相当于我们人类学会了阅读“唇语”。而这样的AI产品尚不存在,并不代表它不可能实现。
那最糟糕的情况会是什么?
不久之前,就在互联网才刚刚普及的时候,我们面临的最大安全威胁还是“肩窥”——换句话说,最简单的密码窃取方式就是偷看他们的输入内容。
因此,大多数密码输入界面才会用通配符掩蔽掉我们的真实键入内容。毕竟我们永远不知道谁正躲在暗处偷看我们的操作。
但如果把屏幕遮上,大多数人其实看不出用户到底按下了哪些字母或者数字。而我们自己则能够占据主动,轻松流畅地把自己熟记于心的密码内容快速打上密码栏。
但人不行,可不代表AI不行。只要拥有充足的数据,AI世界中一切皆有可能。
从理论上讲,只要拥有充足的数据资源,开发者完全可以通过AI芯片(例如目前各类旗舰级智能手机上的芯片)或者云资源训练出具备超强推理能力的模型。
这样只要配合手机摄像头,几乎任何人都可以边拍摄窥探对象边获取其真实操作活动或者在屏幕上输入的内容。
也就是说,恶意人士完全可以借此窃取密码、银行卡密码甚至是完整的文档内容(只要能够拍摄下整个输入过程)。
而如果把这种能力跟云服务体系对接起来,各大科技企业乃至联邦政府也就快速建立起了全面的监控网络。无论是谷歌还是洛杉矶警察局,都能轻松把任何摄像机变成按键检测器。你在屏幕前的一举一动,都将逃不过他们的眼睛。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。