2018-07-19
这篇文章有 2篇论文速递,都是ECCV 2018 paper,一篇关于语义分割方向,另一篇是关于深度预测方向。
《Effective Use of Synthetic Data for Urban Scene Semantic Segmentation》
ECCV 2018
Abstract:训练深度网络以执行语义分割需要大量标记数据。为了减轻注释真实图像的手动工作,研究人员研究了合成数据的使用,这些数据可以自动标记。不幸的是,在合成数据上训练的网络在真实图像上表现得相对较差。虽然这可以通过域适应(domain adaptation)来解决,但是现有方法都需要在训练期间访问真实图像。在本文中,我们介绍了一种截然不同的处理合成图像的方法,这种方法不需要在训练时看到任何真实的图像。Our approach builds on the observation that foreground and background classes are not affected in the same manner by the domain shift, and thus should be treated differently。特别是,前者应该以基于检测的方式处理,以更好地解释这样的事实:虽然它们在合成图像中的纹理不是照片般逼真的,但它们的形状看起来很自然。我们的实验证明了我们的方法对Cityscapes和CamVid的有效性,仅对合成数据进行了训练。
arXiv:https://arxiv.org/abs/1807.06132
注:domain adaptation这个概念最近很火!
《ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems》
ECCV 2018
Abstract:在本文中,我们介绍ActiveStereoNet,这是active立体声系统的第一个深度学习解决方案。由于缺乏ground truth,我们的方法是完全自监督的,但它产生精确的深度,子像素精度为像素的1/30;它没有遭受常见的过度平滑问题;它保留了边缘;它明确地处理遮挡。我们引入了一种新的重建损失(reconstruction loss),它对噪声和无纹理patches更加稳健,并且对于光照变化是不变的。使用具有自适应支持权重方案的基于窗口的成本聚合来优化所提出的损失。这种成本聚合是边缘保留并使损失函数平滑,这是使网络达到令人信服的结果的关键。最后,我们展示了预测无效区域(如遮挡)的任务如何在没有ground truth的情况下进行端到端的训练。该component对于减少模糊至关重要,特别是改善了深度不连续性的预测。对真实和合成数据进行广泛的定量和定性评估,证明了在许多具有挑战性的场景中的最新技术成果。