虚拟现实技术近年来迎来一波快速发展,适用范围也扩展到更多领域,引得众多老牌巨头纷纷参与。然而,VR技术自身仍存在一些极难解决的缺陷;如果无法攻克,技术的进一步普及将只能是痴人说梦。目前,不少研究团队都在从自身的思考出发试图寻找答案,但其中最核心、影响最大的问题,应该从人类视觉的物理学原理说起。
VR的问题
头晕、恶心、失衡等症状在VR用户当中非常普遍。奥地利虚拟现实公司Junge Römer展开的一项调查显示,在991位受访者当中,超过75%的人至少存在其中一种症状。调查还显示,这些负面影响对于首次使用VR设备的用户表现得尤为强烈。另外,这些症状的持续时间与使用时长也保持着几乎线性的关系。
除了为娱乐用途提供更舒适的VR体验之外,科学家们还希望积极攻克这个难题,让VR技术在医学或教育等其他领域获得广泛的适用性。
所以,物理学究竟能不能帮助我们改善VR体验?
VR头显是怎么工作的?
为了理解物理原理在VR中的作用,我们不妨先聊聊VR头显与人眼的工作原理。
当我们佩戴起这些精美的VR头显时,小小的显示器与眼球距离很近,完全占据了我们的整个视野。但是,我们的眼睛无法聚焦在极近的物体上;为了解决这个难题,开发人员采用复杂的光学系统,通过一组光学透镜引导我们的视线聚焦在显示对象身上。
于是乎,显示器发出的光亮就通过这个光学系统照射到我们的眼部。之后,晶状体对光线进行折射,进一步把图像聚焦在眼睛后部的视网膜上。接下来,部分视觉接收器就会将电磁辐射信号转换为电脉冲,再传输给我们的大脑。
在物理层面,我们可以使用射线模型来表现整个过程。
通常,简单的VR光学系统会由一组高精度透镜(通常中菲涅耳透镜)构成,光线就经由它们从显示器传递到您的眼部。
这些透镜在设备中意义重大,因为如前所述,我们佩戴VR头显时眼球与显示器的距离其实非常近,因此眼部的聚焦能力天然无法看清图像。如果不相信,各位可以把手机屏幕慢慢拉近自己的双眼,应该能明显感受到自己的近距离聚焦极限在哪里。另外,盯着过近的东西看一会儿,大家往往会感到眼部疲劳、头昏脑胀。没错,这说明眼睛的结构不适合干这活儿。
但使用VR头显,这么近的距离下我们为什么也能看到清晰的图像?功臣正是这一组复杂的光学元件,通过特定的透镜组合对光线进行必要校正。
但这套光学系统并不完美,而且只要一丁点的不匹配性就会对VR的沉浸感产生巨大影响。实际上,正是由于这点微波的瑕疵,用户们才会大范围出现失衡、视线涣散、头晕、头痛等问题。
聚拢调节问题
要从根源上克服挑战,首先需要解决其中最基础的光学难题,即聚拢调节问题。大多数VR开发者认为,除了提高显示器的分辨率与扩大视野面积之外,聚拢调节正是阻碍VR产品全面普及的第三大障碍。
举起一根手指放到面前,然后盯住它看。这时候我们的眼睛会完成两项操作:首先,眼睛会快速将视线聚焦在手指上(调节),然后两只眼球开始向中心点移动(聚拢)。这种聚拢过程,正是我们观看近处事物的必要过程。
但VR头显的观看设计并非如此。在我们佩戴VR头显时,眼睛会始终聚焦在眼前的VR屏幕上,而聚拢过程则由虚拟图像的指向距离和位置来“假装”实现。这会让眼睛感觉很不自然、很不舒服,进而导致眼疲劳和头晕恶心。
解决问题
VR企业正努力解决聚拢调节问题。截至目前,所有尝试都在向我们不断强调,必须从视觉原理层面寻找突破口。换句话说,我们没办法通过简单的计算或技术手段加以解决。所以在未来的VR头显中,集成光学系统必须能够准确地模拟真实世界中的光线变化。
解决问题的初步思路,是在VR设备当中引入多个、而非一个显示器。这些显示器各自拥有不同的焦距,用于呈现虚拟环境下的不同区域。但这不仅会大大提升设备的制造成本,同时也会令显示内容的对比度显著下降。
后来,VR开发者们又将注意力转向自适应光学方案。这类技术尝试使用更灵活的透镜取代只有单一焦距的传统VR组件,保证其能够在1毫秒之内快速完成不同焦距之间的切换。
在将这些透镜安装在人眼与VR显示器之间后,科学家们就能创造出更顺畅自然、不适感更弱的虚拟体验。但自适应光学系统对于头部位置有着严格的要求,导致应用之路再次陷入僵局。
新加坡的一家厂商似乎更进了一步,他们认为自适应光学系统还能再搏一把。2018年,他们开发出一款软件,能够确定不同虚拟场景中的最佳焦点位置。另外,他们还引入一款红外眼动仪来检查用户视线,并将信息提供给机械制动器,再由后者快速调整焦点定位。
第三种比较流行的解决方案就是所谓光场技术,其基本思路是从虚拟对象的增量区域内发出两条或多条光线,将虚拟对象的多个视图投影至单一VR显示器上。之后,这些光线会被进一步投射到显示器的像素上,但缺点是我们需要的光线越多,对应的像素数量就越大。
近年来,VR技术取得了快速且巨大的进步。然而,VR设备还远远没有完善,用户们仍然会频繁报告自己出现了恶心、头晕、眼疲劳等问题。而且只要一天没能彻底解决这些问题,我们就无法将VR真正引入科学、医学、教育等领域。好消息是,目前的工作成果已经让我们相信,克服困难的一大前提在于充分理解人类视觉系统的物理原理,再依照原理开发出完全契合的VR光学系统。已经有众多企业在这条道路上倾情投入、奋力前行,我们有理由相信趋近完美的VR头显应该就在不远的未来。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。