用肉眼观察角落另一边的盲区或许不太现实,然而经过科学家们多年研究,已经可以利用专门的激光器实现了。而现在,麻省理工计算科学与人工智能实验室(MIT CSAIL)的研究者们又向前迈进了一步:他们开发了一套成像系统CornerCameras,可以从地面反射的微光中探测到物体。
[video]uu=dfa091e731&vu=1b7b9c1c3a&auto_play=0&width=600&height=450[/video]
这项研究的原理很简单:所有物体都会反射光线,CornerCameras系统能够使用智能手机摄像头采集的视频,实时测量隐藏物体的速度和轨迹。当然,人眼是无法看清这种变化的,但摄像头可以,通过观察角落附近的地面,再根据地面阴影的变化,判断另一边是否有东西在移动。
MIT CSAIL一位发言人说,这项技术有一系列应用场景,包括消防队员在焚烧的建筑物内寻找人,以及自动驾驶汽车探测盲区内的行人等等,在这种应用场景中,它并不需要任何细节,只要知道那边有东西就行了。他还说,这个系统方便的地方在于,可以使用智能手机摄像头采集的视频。
博士毕业生Katherine Bouman是该系统论文的主要作者,她表示,“即使这些‘半影’(模糊的阴影)实际上对于摄像头来说并不可见,我们还是可以通过系统看到它们,以确定它们在哪里,以及它们要去哪里。”
而且,为了观察这种方法对自动驾驶汽车是否可行,她们在阴影角度拍摄了一段远处角落的视频,结果依然能够获得明确的信号。也就是说,即便汽车距离角落很远,也依然能够使用这套系统。
不过,这种方法也存在一些弊端:尽管它可以检测盲区内障碍物的移动速度、位置,但无法辨认该物体的任何细节信息,包括边缘、形状或纹理。相较于激光器的激光反弹原理,这种技术只能检测出在明亮环境下移动的人或物体。而且,用于分析的视频源也必须保持稳定,否则也会出现纰漏。
尽管存在漏洞,但就目前而言,这套系统已经是一项突破了。它在室外明亮光下表现得很出色,甚至在雨中也能工作。
关于雨中作业,Bouman比较惊讶,“由于雨水改变了地面的颜色,所以我认为,系统无法看到光线中千分之一的微小差异。” 不过,“由于系统整合了几十张图像的信息,足以抵消雨滴的影响,所以你可以看到物体的移动。”
CornerCameras系统目前需要一台笔记本来进行必要的图像处理,但Bouman说,这个问题可以在未来得到解决:“从计算角度看,该系统完全可以在手机上运行,只不过我们还没有这么做而已。”
Bouman同麻省理工学院教授Bill Freeman、Antonio Torralba和Greg Wornell共同撰写了这篇论文,Bouman将在本月晚些时候在威尼斯举办的International Conference on Computer Vision(国际计算机视觉大会)上介绍最新工作。
<来源:the Verge;编译:科技行者>
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。