900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > VidLoc:A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization

VidLoc:A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization

时间:2018-09-22 06:53:53

相关推荐

VidLoc:A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization

摘要

大多数基于CNN的方法,都是单一图像,在这种情况下,所提出的基于深度学习的方法都没有利用有价值的时间平滑性约束,往往导致每帧误差大于相机运动的情况。本文提出了一个循环模型,用于对视频片段进行6-DoF定位。

贡献

本文提出一个递归模型,通过使用多帧的姿势预测来减少姿势估计的误差。

N-RNN模型。

2.在网络中整合了一种获得姿势估计的瞬时协方差的方法。

3.本文对两个大型开放数据集进行了评估,并回答了一个重要的问题:我们的方法与作为后处理步骤的简单平滑姿态估计相比如何?

模型

本文的模型使用CNN处理视频图像帧,并通过一个双向的LSTM整合时间信息。

图像特征:CNN

模型的CNN部分的目标是从输入图像中提取相关的特征,VidLoc采用GoogleNet Inception的架构,只使用GoogleNet的卷积层合池化层,放弃所有的全连接层。

双向RNN

当使用具有时间连续性的图像流时,通过利用时间上的规律性可以获得大量的姿势信息。例如,相邻的图像通常包含同一物体的视图,这可以提高对某一特定位置的信心。

为了捕捉这些动态的依赖关系,我们在网络中使用了LSTM模型。

标准LSTM有一个限制是它只能利用以前的背景信息来预测当前的输出。由于这个原因,我们采用了双向结构。一个向前处理数据,一个向后处理数据。

损失函数

概率性姿态估计

为了对姿势的不确定性进行建模,我们采用了混合密度网络方法。

实验

数据集:7-Scenes和Oxford RobotCar

7-Scenes

序列长度的影响

下图描述了定位误差与所用序列长度的关系。

Oxford RobotCar

所选的图像序列对于全局重定位来说非常具有挑战性。如图所示,这些图像大部分都是道路和树木,它们没有明显和一致的外观特征。

图9显示,随着序列长度的增加,所提出的方法的结果有所改善,长度为50和100的重定位结果与道路一致。

图10表明定位结果是平滑和准确的。

总结

在未来的工作中,作者打算研究更好地利用深度信息的方法。

VidLoc:A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization用于6-DoF视频片段重新定位的深度时空模型

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。