Attention-based Context Aggregation Network forMonocular Depth Estimation
本文提出了一种在enconde阶段加入注意力网络结构,建立关联特征,使得深度特征连续估计更加明显。此外在decoding阶段用ASPP提取不同尺度的图像合成深度图。
贡献
我们提出了一个像素级的注意力模型,用于单目深度估计,可以捕获与每个像素相关联的上下文信息。
此外,像素级上下文和图像级上下文的聚合对于提高估计性能是有效的。我们的实验结果表明,所提出的像素级注意力模型优于基于ASPP的模型,因为所生成的ACAN像素级上下文信息是灵活的和连续的,因此避免了网格效应。
为了消除二维图像纹理和深度图中较大的语义间隙,我们引入KL散度作为注意力损失,以最小化注意力地图的分布与由地面真实深度构造的相似性图的分布之间的差异,通过我们的烧蚀实验证实了注意力损失的有效性。
提出了一种易于实现的软推理策略,与单纯的硬推理相比,该策略能减少离散化误差,生成更逼真的深度图。