将物体细致到一个个像素
当我们人类看一张图片时,为了分辨不同的物体,我们能细致到一个个像素的水平。在脸书的人工智能研究中心(Facebook AI Research, FAIR),我们正在将计算机视觉技术推向一个全新的阶段——我们的目标是让计算机能像人类一样,从像素的水平去分析图像和物体。在过去的几年当里,深度卷积神经网络的发展和前所未有的强大计算架构的到来,已经让计算机视觉系统在精确度和计算能力方面得到了迅速提升。
我们已经见证了在图像归类(这张图像中有什么?)以及物体检测(这些物体在哪儿?)领域的巨大进步。请参阅下图(a)和图(b)。但这些还只是计算机理解任意图像或视频中相关视觉内容的起步阶段。近期,我们正在设计一种能够在图像中识别和区分每一个物体的技术,如下面最右边的图(c)所示,这是一种将会带来全新应用前景的关键性技术革新。
驱动这项进步的主要的新算法是DeepMask1分割框架加上我们的新SharpMask2分割提纯模块。同时,它们使得FAIR的计算机视觉系统变得能够检测和精确地勾画出图像中每一个物体的轮廓。我们这项识别过程的最后一个阶段使用了一种特殊的卷积网络,我们称之为MultiPathNet3,目的是用其中包含的物体类别(例如:人、狗、羊)来标注每一个目标掩码图像。之后我们会回来简单介绍这里面的细节。
我们正在编写DeepMask+SharpMask以及MultiPathNet的代码,同时还有我们的研究论文和相关的演示小样—这些资源将对所有人开放,我们希望它们能够有助于计算机视觉领域的快速进步。在我们继续改进这些核心技术的同时,我们也将继续发表我们最新的成果,并且不断更新我们面向大众开放的一系列开源工具。
从像素点中发现规律
让我们一起来看看这些算法的建立基础。
请看下面的第一张图(左图)。你看到了什么?一个摄影师正在操作他的老式相机。一块大草坪。背景当中的建筑物。同时你也可能注意到了无数其他的细节。但计算机看不到这些:一张图像被编码成一个数列,而里面每个数都代表着像素点的颜色参数,就如第二张图片(右图)所表示的那样。那么,我们该怎样让机器视觉从像素点走向对一张图像的深层次理解呢?
这不是一个简单的任务,因为物体和场景在现实世界中千变万化。物体的形状、外表,它们的大小、位置,它们的质地和颜色等等,都在变化。再加上真实场景、变化的背景以及光线条件固有的复杂性,以及我们这个世界本身的丰富多彩,你看,这下你可以窥见这个问题对于计算机来说是多大的难题了吧!
让我们走进深度卷积神经网络的世界。
比起试图用编程方式来定义一个基于规则的物体检测系统,深度网络是相对更简单的架构,这个构架中成千上万的参数是训练得到的而不是被设定的。这些网络自动从成百上千已被标注的样例中学习内在的模式,并且我们已经看到,当这样的样例数量足够多的时候,神经网络已经可以开始集成一些新奇的图像了。深度网络特别适应于回答关于图像的是/否的问题(分类)——例如,图像中是否包含了一只绵羊?
分割物体
那么,我们如何在将深度网络应用到检测和分割当中去呢?我们在DeepMask当中采用的技术是把分割过程看做是一系列的二元分类问题。首先,对一副图像中的每一个(有重叠的)小块区域,我们提出问题:这个区块是否包含物体?接着,如果第一个问题的答案是肯定的,那么,对这个区块中的每一个像素点,我们提出问题:这部分像素是否是这个中心物体的一部分呢?我们采用深度网络来回答每一个是/否问题,并且通过聪明地设计我们所使用的网络,每一个区块和像素的计算结果将是共享的,这样,我们就可以快速地发现并且分割图像中的每一个物体。
DeepMask使用的是一种相当传统的正反馈深度网络设计。在这样的网络中,随着网络阶段的逐渐深入,信息变得越来越抽象,并且在语义上意义丰富。例如,深度网络在浅层的分析可能可以抓住一些边缘或者大概的信息,而更深层次的分析则倾向于抓住一些例如动物面貌或肢体这类更加语义丰富的信息。设计上讲,这些深层分析所具有的的特征是在一个相当低的空间分辨率下计算的(既是出于计算上的原因,也是为了在像素位置小幅变化的情况下能保持结果稳定)。这为掩码图像的预测带来了一个问题:深层次的特征虽然能够抓住物体的整体形状,但却不能精确地分割物体的明确界限。
因此我们转向SharpMask。SharkMask细化了DeepMask的输出结果,它能输出具有更高保真度的图层,以便更准确地勾画出物体界限。如果说DeepMask在网络中通过正反馈的方法预测了一个粗略的物体轮廓,SharpMask则在深度网络中利用逆向信息,通过逐渐使用更浅层次的信息来提炼DeepMask的预测结果。这么想吧,为了抓住物体的整体形状,我们必须对我们正在观察的物体(DeepMask)具备一个高度的理解,但为了更准确地描述物体的边界,你需要回头去从低至像素的角度观察它的特征(SharpMask)。其实,我们的目标就是在运营成本最小化的前提下充分利用网络中各层次的信息。
相关评论