麻省理工学院的研究人员最近开发出一种神经网络,能够以相对较高的准确度对个人患有认知功能障碍的可能性做出预测。因此在一定程度上,我们可以将其理解为一种抑郁症检测器。
当然,这种说法并不准确,我们将稍后详加探讨。
由麻省理工研究员Tuka Alhanai、Mohammad Ghassemi以及James Glass组成的研究团队在Interspeech 2018大会上展示其工作成果。
根据相关论文,他们开发出一种无情境方法,可借此确保机器对人类的文本或音频表达内容进行分析,从而检测出该人的抑郁度评分。其中最为关键的,当然在于这套人工智能方案的“无情境”因素。
一般来讲,治疗师需要利用经过验证的问题与直接观察相结合,共同诊断对方的抑郁症等精神健康状况。而根据麻省理工学院团队的说法,他们的人工智能能够在无需条件性问题或者直接观察的前提下,实现类似的效果。换言之,其不需要情景信息,而只需要数据资料。
下面来看该团队所发布论文中的部分内容:
麻省理工学院研究人员详细介绍一种神经网络模型,该模型能够通过访谈方式对原始文本及音频数据进行解析,从而发现可能预示抑郁症疾病的表达模式。在给定新主题的情况下,其能够准确预测相关个体是否存在压抑情绪,且不需要任何其它相关问题及答案信息。
那么,这到底属于检测还是预测?
虽然看似无关紧要,但检测与预测实际上属于完全不同的两回事。预测个体是否存在抑郁倾向的算法仅仅代表一种标记数据,将被提交给治疗师进行进一步审查。但对抑郁症的检测,则要求其给出的确定性结果确实与目标个体的精神状态相符。
当然,研究人员们也意识到了这一点。论文第一作者Tuka Alhanai表示,“这不是在对抑郁症进行检测,而是根据言语中的常见信号对个体的认知障碍问题做出一定程度的评估。”
这是一种预测,而非检测。但也正是这种微小的区别,使得这项工作在本质上具有可怕的影响。
为了测试这套人工智能方案,研究人员们进行了一项实验,由人为控制的虚拟代理对142名受试者提出一系列问题,从而进行抑郁症筛查。人工智能并没有事先了解问题内容,而受访者亦可自由以任何形式做出回答。问题的形式并非单项选择,人工智能需要从语言线索当中辨别抑郁症。
在这项研究中,参与者的回答将以文本及音频形式进行记录。在文本版本中,人工智能能够在大约7个问答序列之后预测抑郁症。但有趣的是,在音频版本当中,人工智能需要大约30个序列才能做出决定。据研究人员称,其平均准确率达到惊人的77%。
问题在哪?很明显,相信任何能够直接接受医师诊疗的病患,都不会选择这种预测方式。
在办公室中观察病人的治疗师们显然认为自己拥有远超算法的诊断能力。而且这类人工智能方案与利用图像识别/检测癌症不同。人类医师可以通过医学影像发现并清除癌症(在大多数情况下),但却无法利用同样的方式验证人工智能做出的抑郁症诊断。
从理论角度讲,当计算机与人类聆听同一段对话并最终做出截然相反的抑郁症诊断结论时,我们该如何判断真伪?或者,如果大家愿意,那么在计算机发现对方存在潜在抑郁症迹象时,我们是否也应进行相同的检查以确保医生做出的非抑郁症判断准确无误?在这样的情况下,自动化机制存在的意义是什么?
更重要的是,当医疗专业人员以外的人士使用这种“抑郁症检测器”时,又会引发怎样的后果?论文中的某些表达似乎证明,这些算法确实是为了在高枕而麻省理工学院实验环境之外的实际应用而开发:
患有抑郁症的病患将长年累月受到消极与悲伤情绪的困扰。要治疗抑郁症患者,必须首先对其做出诊断。而为了获取诊断结果,受试个体必须主动与心理健康专业人士进行接触。实际上,由于移动性、成本与动机等因素的限制,抑郁症患者可能无法得到应有的专业关注。在这种情况下,人工智能方案提供的人类交流内容自动监测能力将解决这些限制,并提供更好的抑郁症筛查服务。
对人类通信进行自动监控似乎代表着梦魇般的反乌托邦未来。我们可以想象,人们将在不知情的前提下面对一系列问答序列,并由机器对其心理健康情况做出评估。相信大多数人都会意识到,在未经同意的情况下利用神经网络这类黑匣子进行心理健康评估绝不是什么好主意。
想象一下,如果企业利用“抑郁症检测器”这类人工智能方案在面试过程中对您进行心理状况检测,或者律师通过算法解释您在子女监护权案件中的表述,会引发怎样可怕的后果乃至影响。
更糟糕的是,我们甚至能够想到警察局利用人工智能黑匣子对嫌疑人在审讯过程中的精神状态进行监测。毕竟世界各地的执法单位需要投入大量资金与宝贵时间对嫌疑人进行心理学侧写,而人工智能据称能够更好地“检测”对方的情绪状态。
可以想象,如果全面推出,这类解决方案最终一定会出现在审讯室、就业面试以及其它难以预知的场景当中。我们绝不应被人工智能的判断所左右:机器绝对无法检测到我们是否身为同性恋、有罪或者沮丧,它们只是在做出猜测。而身为人类,我们理应非常谨慎地对这种猜测结果加以运用。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。