2018-08-11
这篇文章介绍两篇 ECCV 2018最新的 paper,一篇提出新的基于Disentangled Representations网络,实现图像到图像转换;另一篇提出新的SPG masks,可有效地生成高质量的目标定位图。
《Diverse Image-to-Image Translation via Disentangled Representations》
ECCV 2018(oral)
Abstract:图像到图像转换旨在学习两个视觉域之间的映射。许多应用存在两个主要挑战:1)缺少对齐的训练对(aligned training pairs)2)来自单个输入图像的多个可能输出。在这项工作中,我们提出了一种基于disentangled representation的方法,用于在没有成对训练图像的情况下产生多样化的输出。为了实现多样性(diversity),我们提出将图像嵌入到两个空间中:a domain-invariant content space capturing shared information across domains and a domain-specific attribute space。我们的模型采用从给定输入中提取的编码内容特征和从属性空间采样的属性向量,以在测试时产生不同的输出。为了处理不成对的训练数据,我们引入了新的基于disentangled representations的cross-cycle consistency loss。定性结果表明,我们的模型可以在无需配对训练数据的情况下,在各种任务上生成多样且逼真的图像。对于定量比较,我们使用感知距离度量(perceptual distance metric)来衡量用户研究和多样性的真实性。与MNIST-M和LineMod数据集上的最新技术相比,我们将所提出的模型应用于域适应并显示出最佳效果(SOTA)。
arXiv:https://arxiv.org/abs/1808.00948
homepage:http://vllab.ucmerced.edu/hylee/DRIT/
github:https://github.com/HsinYingLee/DRIT
《Self-produced Guidance for Weakly-supervised Object Localization》
ECCV 2018
Abstract:弱监督方法通常基于分类网络产生的注意力图(attention maps)生成定位结果。然而,注意力图表现出对象的最具辨别力的部分,这些部分是小的和稀疏的。我们建议生成自生导引(generate Self-produced Guidance ,SPG)掩模,其将前景,感兴趣对象与背景分离,以向分类网络提供像素的空间相关信息。提出了一种分阶段(stagewise)方法,以结合高置性对象区域来学习SPG掩模。注意力图中的高置信区域用于逐步学习SPG掩模。然后将掩模用作辅助像素级监督,以便于分类网络的训练。对ILSVRC的广泛实验表明,SPG可有效地生成高质量的对象定位图。特别是,提出的SPG在ILSVRC验证集上实现了43.83%的Top-1定位错误率,这是一种新的SOTA错误率。