微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

数学模型正在破译人类视觉形成的秘密

视觉人工智能

数学模型正在破译人类视觉形成的秘密

作者：科技行者

2019-08-23 10:59

分享至：

我们“看到”的大部分内容主要来自大脑想象。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2019-08-23 10:59 • 科技行者

人类视觉如何形成？时至今日，这仍然是一个“迷”：大脑的视觉系统从世界本身收到的信息却非常有限，这同时也意味着，我们“看到”的大部分内容主要来自想象。

纽约大学数学家Lai-Sang Young表示：“我们认为自己看到的很多东西是经过大脑进行重构的，实际上我们并没有看到。”

大脑在创建视觉世界方面的表现确实非常出色，遗憾的是，纯粹的解剖学研究并不能揭示大脑如何创造这些图像——这项任务本身就非常困难，类似于盯着汽车发动机来破解热力学定律。

而最新研究表明，数学可能是解决这个问题的关键。在过去几年当中，Young与她在纽约大学的同事（神经科学家Robert Shapley以及数学家Logan Chariker）开展了一项脑洞大开的合作。他们正在共同构建一套单一数学模型，并与多年以来的生物实验结果结合起来，从而解释大脑如何根据非常有限的视觉信息，创造出精美的视觉化观察效果。

通过在每次实验中向其中添加一种基本视觉元素，他们解释了视觉皮层中的神经元如何通过相互作用的方式，检测出物体的边缘与对比度变化。现在，他们正在研究大脑对物体移动方向的感知方式。

根据以往积累下的人类视觉实验素材，对视觉皮层的结构做出合理假设，这是一种前所未有的研究方法。具体而言，Young、Shapley和Chariker在数学模型中融入了关于视觉皮层的严格且非直观的生物学结论，希望以统一的方式解释视觉现象的可能产生途径。

>>> 视网膜与视觉皮层之间的连接非常有限

生物学告诉我们，我们的眼睛就像是镜头，负责接收来自外界的光线，能够将视野等比例复制并投射至位于眼睛后部的视网膜上。视网膜直接对接视觉皮层，即后脑中负责视觉的区域。

然而，视网膜与视觉皮层之间的连接非常有限。在这个仅相当于四分之一满月（地面观察角度）大小的视觉区域之内，只有约10个神经细胞负责将视网膜连接至视觉皮层。这些细胞构成了LGN，即外侧膝状体——这也是视觉信息从外界传播至大脑当中的唯一途径。

LGN细胞不仅数量稀少，能力也非常“捉急”。当LGN细胞在视野的某一微小部分中检测到从暗到亮的变化（反之亦然）时，LGN细胞会向视觉皮层发送脉冲。亮度调整后的视野开始向视网膜传输新的数据，但大脑真正能够接收到的，仍然是由微小LGN细胞集合传递来的微弱信号。整个图像还原过程，就像是在用餐巾纸上的手稿片段整理出一部长篇小说。

Young指出，“大家可能会认为，大脑中映照出的就是我们在视野中看到的东西。但实际上，大脑不是这样工作的；映射是视网膜的任务，但从视网膜传递至视觉皮层的信息其实很少。”

虽然皮层与视网膜之间只通过较少的神经元连接，但皮质本身却拥有丰富且密集的神经细胞。对于每10个连接视网膜的LGN神经元，神经皮层一侧就会在初始“输入层”中安排4000个与之对应的神经元。这样的结构，表明大脑会对其接收到的视觉数据进行深度处理。

对于像Young、Shapley以及Chariker这样的研究人员来说，其中的核心挑战在于，如何解读大脑的整个处理过程。

>>> 视觉信息传递是“反馈”循环而不是“前馈”循环

事实上，Young、Shapley以及Chariker并不是首次尝试用数学模型解决这个问题的研究者。但是，不同之处在于，之前所有的研究都假设视网膜与视觉皮层之间拥有更多信息传播通道，从而给视觉皮层对于刺激的反应原理找出一种更简单的解释途径。

长久以来，数学家们已经一次又一次成功解决了建模变化问题，从台球运动轨迹到时空演变皆在此列。这些，正是所谓“动态系统”的直接表现——系统会根据固定的规则，随时间推移而发生变化。在大脑当中存在的神经元间相互作用，也属于一类动态系统——只不过其遵循的规则更为微妙，而且难以确定。

LGN细胞可以向视觉皮层发送一系列电脉冲，电压仅为十分之一伏，持续时间为一毫秒。这些脉冲，能够引发一系列神经元间相互作用。Young表示，与我们更熟悉的物理系统相比，这类交互活动中的规则几乎称得上“无限复杂”。

▲ 纽约大学数学家Lai-Sang Young

单一神经元会同时接收来自数百个其他神经元的信号，其中一部分信号会促使前者进一步发射信号，另一部分则会抑制其继续发射脉冲。当神经元接收到这些兴奋性及抑制性电脉冲时，其细胞膜上的电压就会发生波动。只有该电压（或者叫「膜电位」）超过某一阈值时，对应反应才会被触发。而目前，我们几乎无法预测这种情况何时发生。

Young指出，“如果大家着眼于单一神经元的膜电位，就会发现其存在上下波动。我们没有办法准确判断其何时才会被触发。”

实际情况的复杂度远不止于此。如果有几百个神经元接入某一单个神经元，情况又会如何？当它随时接收来自数百个其他神经元的信号时，视觉皮层也正是由无数个这样的反馈循环所构成。

Shapley表示，“问题在于，这个过程中存在着大量活动组成部分，这也是其中最核心的挑战所在。”

早期的视觉皮层模型往往会忽略这一特征。当时的研究人员们认为，信息仅以一种方式进行流动：从眼睛前部到后部的视网膜，再到视觉皮层，最后传递至后脑中的对应区域，整个过程如同在工厂的传送带上传输零部件一样单纯。这类“前馈”模型的创建难度更低，但却忽略了解剖学中的一项基本原则——生物体以“反馈”循环作为基本组成部分。

Young指出，“反馈循环真的很难处理，因为信息会不断回归并引发变化，然后再回归、再引发新的变化。更重要的是，这种循环在大脑当中无处不在，而且几乎没有任何现有模型能够准确加以处理。”

在2016年发表的第一篇论文当中，Young、Shapley以及Chariker开始重视这些反馈循环。他们在模型的反馈循环中引入了类似于蝴蝶效应的机制：来自LGN细胞的信号在发生微波变化后，会经由一个又一个反馈循环后被逐步放大。他们将这一过程称为“反复激发”，并认为该过程会在最终模型中对视觉结果产生巨大的影响。

Young、Shapley以及Chariker证明，他们的富反馈模型能够基于进入模型的弱LGN输入信号的微小变化，重现物体边缘的指向——从垂直到水平，以及介于这二者之间的所有指向情况。

这意味着，科学家们可以只利用极少数对接其他神经元的神经元在视觉系统当中标示所有方向。

然而，边缘检测只在视觉系统中占据很小一部分，而2016年的论文也仅仅只是开始。接下来的挑战，在于如何在模型当中添加额外的视觉元素，同时又不影响到以往元素的实际作用。

Young解释称，“如果某个模型能够提供正确的结果，那么该模型也应该能够顺利完成其它一些任务。这就像我们的大脑，不需要做出任何调整，就能够在观察不同对象时做出不同的反应。”

>>> 数学+生物学：为研究迈出重要一步

在实验室条件下，研究人员们选择了对灵长类动物而言最简单的视觉刺激内容——黑白模式。在黑白模式下，能够调整的变量只有画面对比度以及进入视野的具体方向。研究人员们利用电极连接至灵长类动物的视觉皮层，同时跟踪在响应刺激的过程中产生的神经脉冲。一套理想的模型，应该能够在面对相同的刺激时给出同样类型的输出脉冲。

▲ 纽约大学神经科学家Robert Shapley

Young指出，“如果向灵长类动物展示某些图片，它们就会做出对应的反应。根据这些信息，我们尝试对其进行逆向工程，从而让自己的模型拥有相同的处理能力。”

2018年，三位研究人员发表了第二篇论文，证明了用于检测边缘的同一套模型，也能够重现视觉皮层当中被称为“伽马节律”的脉冲活动的整体性模式。（类似于我们观察萤火虫时，看到的其以群体为单位呈现出的发光模式。）

目前，他们的第三篇论文已经提交审阅，主要内容是解释视觉皮层如何感知对比度变化。他们的解释涉及兴奋神经元加强彼此活动性的机制，并认为这种效果类似于舞会上人们相互暗示、并共同营造出欢乐氛围的方式。既然视觉皮层能够从稀疏的输入数据中创建出完整图像，那么这种机制无疑不可或缺。

目前，Young、Shapley以及Chariker正致力于将方向灵敏度指标添加到模型当中，用以解释视觉皮层如何重建物体在视野中的移动方向。接下来，他们还计划解释视觉皮层如何识别视觉刺激当中的时间模式。例如，我们希望了解我们如何从交通指示灯的变换中感受到闪烁现象，但却不会在观看电影的时候把画面按照逐帧形式理解。

在后一个问题中，他们会建立一套简单的模型，仅充当六层神经皮层中的一层——即负责为大脑呈现粗略视觉印象轮廓的层。他们目前的工作还没有涉及余下的五层，这是因为其它几层负责进一步处理其它更为复杂的视觉元素。另外，他们也没有说明视觉皮层如何区分颜色。事实上，颜色的区分机制要远比我们想象的更复杂，需要涉及完全不同且更为繁琐的神经通路。

虽然他们的模型还远未能揭开整个视觉系统的神秘面纱，但却已经朝着正确的方向迈出了重要一步——这是第一套以具备生物学合理性方式、尝试破译视觉机制的模型。

视觉人工智能

分享至