依靠计算机即时发现坏人的踪迹当然很好,问题是AI系统的能耐远不止于此。如果AI能够观察我们在手机触控屏上的操作并正确推断出当前使用的具体应用乃至键入内容,又该怎么办?
此事绝非危言耸听,现代计算机视觉技术已然掌握了我们之前只在电影里见识过的卓越能力。我们完全可以将视频加载至AI系统当中,要求其具体观察低分辨率帧内的每个细节,并通过少量训练与强大的算法实现图像内容“增强”。如此神奇,又如此强大。
这事听起来似乎简单而美好,但除了自动驾驶功能、癌症检测乃至计算照片中的物体个数之外,这项技术还有可能带来我们难以预见的种种威胁。
聪明的人类总会脑洞大开,由他们训练出的AI系统也许很快就能学会如何根据按键操作或手拗移动推断出输入的文本。这事绝对细思极恐,稍后我们会深入做出解释。
首先需要强调的是,自2017年以来,计算机视觉技术已经取得了长足进步。AI系统已经从分不清乌龟与步枪,发展到如今仅借助少量数据即可做出令人难以置信的高精度推理。例如,研究人员证明计算机单靠AI接收到的生物识别信息即可对用户进行身份验证;心理学家甚至还利用按键分析数据开发出自动心理压力检测系统。
研究人员甚至在训练 AI模仿人类打字活动,借此开发出更强大的拼写、语法乃至其他交流工具。总而言之,我们正在指导AI系统获得绝大多数人类都不具备的能力——通过手指运动推断输入内容。
一旦AI掌握了这种能力,也就相当于我们人类学会了阅读“唇语”。而这样的AI产品尚不存在,并不代表它不可能实现。
那最糟糕的情况会是什么?
不久之前,就在互联网才刚刚普及的时候,我们面临的最大安全威胁还是“肩窥”——换句话说,最简单的密码窃取方式就是偷看他们的输入内容。
因此,大多数密码输入界面才会用通配符掩蔽掉我们的真实键入内容。毕竟我们永远不知道谁正躲在暗处偷看我们的操作。
但如果把屏幕遮上,大多数人其实看不出用户到底按下了哪些字母或者数字。而我们自己则能够占据主动,轻松流畅地把自己熟记于心的密码内容快速打上密码栏。
但人不行,可不代表AI不行。只要拥有充足的数据,AI世界中一切皆有可能。
从理论上讲,只要拥有充足的数据资源,开发者完全可以通过AI芯片(例如目前各类旗舰级智能手机上的芯片)或者云资源训练出具备超强推理能力的模型。
这样只要配合手机摄像头,几乎任何人都可以边拍摄窥探对象边获取其真实操作活动或者在屏幕上输入的内容。
也就是说,恶意人士完全可以借此窃取密码、银行卡密码甚至是完整的文档内容(只要能够拍摄下整个输入过程)。
而如果把这种能力跟云服务体系对接起来,各大科技企业乃至联邦政府也就快速建立起了全面的监控网络。无论是谷歌还是洛杉矶警察局,都能轻松把任何摄像机变成按键检测器。你在屏幕前的一举一动,都将逃不过他们的眼睛。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。