依靠计算机即时发现坏人的踪迹当然很好,问题是AI系统的能耐远不止于此。如果AI能够观察我们在手机触控屏上的操作并正确推断出当前使用的具体应用乃至键入内容,又该怎么办?
此事绝非危言耸听,现代计算机视觉技术已然掌握了我们之前只在电影里见识过的卓越能力。我们完全可以将视频加载至AI系统当中,要求其具体观察低分辨率帧内的每个细节,并通过少量训练与强大的算法实现图像内容“增强”。如此神奇,又如此强大。
这事听起来似乎简单而美好,但除了自动驾驶功能、癌症检测乃至计算照片中的物体个数之外,这项技术还有可能带来我们难以预见的种种威胁。
聪明的人类总会脑洞大开,由他们训练出的AI系统也许很快就能学会如何根据按键操作或手拗移动推断出输入的文本。这事绝对细思极恐,稍后我们会深入做出解释。
首先需要强调的是,自2017年以来,计算机视觉技术已经取得了长足进步。AI系统已经从分不清乌龟与步枪,发展到如今仅借助少量数据即可做出令人难以置信的高精度推理。例如,研究人员证明计算机单靠AI接收到的生物识别信息即可对用户进行身份验证;心理学家甚至还利用按键分析数据开发出自动心理压力检测系统。
研究人员甚至在训练 AI模仿人类打字活动,借此开发出更强大的拼写、语法乃至其他交流工具。总而言之,我们正在指导AI系统获得绝大多数人类都不具备的能力——通过手指运动推断输入内容。
一旦AI掌握了这种能力,也就相当于我们人类学会了阅读“唇语”。而这样的AI产品尚不存在,并不代表它不可能实现。
那最糟糕的情况会是什么?
不久之前,就在互联网才刚刚普及的时候,我们面临的最大安全威胁还是“肩窥”——换句话说,最简单的密码窃取方式就是偷看他们的输入内容。
因此,大多数密码输入界面才会用通配符掩蔽掉我们的真实键入内容。毕竟我们永远不知道谁正躲在暗处偷看我们的操作。
但如果把屏幕遮上,大多数人其实看不出用户到底按下了哪些字母或者数字。而我们自己则能够占据主动,轻松流畅地把自己熟记于心的密码内容快速打上密码栏。
但人不行,可不代表AI不行。只要拥有充足的数据,AI世界中一切皆有可能。
从理论上讲,只要拥有充足的数据资源,开发者完全可以通过AI芯片(例如目前各类旗舰级智能手机上的芯片)或者云资源训练出具备超强推理能力的模型。
这样只要配合手机摄像头,几乎任何人都可以边拍摄窥探对象边获取其真实操作活动或者在屏幕上输入的内容。
也就是说,恶意人士完全可以借此窃取密码、银行卡密码甚至是完整的文档内容(只要能够拍摄下整个输入过程)。
而如果把这种能力跟云服务体系对接起来,各大科技企业乃至联邦政府也就快速建立起了全面的监控网络。无论是谷歌还是洛杉矶警察局,都能轻松把任何摄像机变成按键检测器。你在屏幕前的一举一动,都将逃不过他们的眼睛。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。