下面是一些由DeepMask绘制,并由SharpMask提炼的一些例子。为了使这些可视化结果简单易懂,我们只展示了其中极好地匹配了实际物体的一些预测掩码图像(人工注解)。请注意,这个系统还不是完美的,图中具有红色边界的物体正是那些由人工标注,但被DeepMask忽视掉了的物体。
物体分类
DeepMask对某个特定的物体类别一无所知,因此它虽然能勾画出一只狗和一只羊,但无法区分它们。而且,DeepMask也不会精挑细选,对无关紧要的局部也会生成掩码图像。因此,我们怎么缩小相关掩码图像范围,识别实际呈现之物?
正如你所期待的,我们再一次求助于深度神经网络(deep neural network)。给定一个由DeepMask产生的掩码图像,我们训练了另外一个深度神经网络来对物体的掩码图像进行分类(“无法分类”也是一个有效答案。)。
这里,我们遵循了一个基本的模式叫做 Rigion-CNN,或者缩写为RCNN,(这个领域的开路先锋Ross Girshick现在也是FAIR的一员了。)RCNN分两个阶段:第一个阶段是将注意力吸引到某些特定的图像区,第二个阶段使用一个深度网络来确认呈现的物体。
开发RCNN时,第一阶段的处理还非常原始,通过使用DeepMask来作为RCNN的第一阶段,同时开发深度神经网络的能力,我们在检测的准确性上获得了显着的提升,也获得了对物体进行分割的能力。
为了进一步提高性能,我们把精力集中在一个特别的神经网络构架上来对掩码图像进行分类(RCNN的第二个阶段)。如我们所讨论的,真实世界的图片里包含了物体的各种尺度,各种背景,各种杂乱,各种隐藏。标准的深度网络在这种情况下就有困难了。为了解决这个问题,我们搭建了一个改良的神经网络,叫做MultiPathNet(多路径网络)。
就像它的名字,MultiPathNet允许信息从网络的多个路径流通,使得它可以在不同的尺度和不同的环境背景下找到信息。
总而言之,我们的物体检测系统遵循三步走程序:DeepMask产生最初的物体掩码图像,SharpMask 细化这些掩码图像,最终MultiPathNet 确认由各个掩码图像勾画的物体。
以下是几个我们整套系统产生的输出例子:
不完美也不寒碜。要知道,几年前实现这些功能的技术根本不存在!
相关评论