900字范文 > Learning Policies for Adaptive Tracking with Deep Feature Cascades全文翻译

Learning Policies for Adaptive Tracking with Deep Feature Cascades全文翻译

时间：2019-02-10 20:47:41

摘要

视觉对象跟踪是一项基本且时间紧迫的视觉任务。近年来出现了许多基于实时像素相关滤波器的浅层跟踪方法，以及具有顶级性能但需要高端 GPU 的深层方法。在本文中，我们学习在不损失准确性的情况下提高深度跟踪器的速度。我们的基本见解是采用自适应方法，其中简单的帧使用廉价的特征（例如像素值）处理，而具有挑战性的帧则使用不变但昂贵的深度特征处理。我们将自适应跟踪问题制定为一个决策过程，并学习一个代理来决定是在早期层以高置信度定位对象，还是继续处理网络的后续层。这显着降低了具有不同或缓慢移动对象的简单帧的前馈成本。我们以强化学习的方式离线训练代理，并进一步证明学习所有深层（以便为自适应跟踪提供良好的特征）可以导致单次接近实时的平均跟踪速度为 23 fps CPU，同时实现最先进的性能。也许最能说明问题的是，我们的方法在近 50% 的时间内提供了 100 倍的加速，这表明了自适应方法的强大功能。

一、简介

视觉对象跟踪（VOT）是视觉中的一个基本问题。我们考虑单个对象跟踪任务，其中在第一个视频帧中识别出一个对象，并且应该在后续帧中进行跟踪，尽管由于对象缩放、遮挡等导致外观变化很大。 VOT 是视频监控和自动驾驶等许多时间关键系统的基本构建块。因此，视觉跟踪器必须满足时间和计算预算的严格限制，特别是在经常需要实时分析感知的移动或嵌入式计算架构上。

图 1. 深度特征级联自适应跟踪的学习策略。代理决定我们是否可以在级联的早期层上准确定位对象。这避免了一直等待最后一层做出决策的需要，从而节省了大量的前馈时间。

尽管跟踪文献取得了很大进展，但在设计兼具高精度和高速度的跟踪器方面仍存在巨大挑战。 TLD [21] 和相关过滤器 [19] 等实时跟踪方法通常依赖于描述性不足以消除目标和背景歧义的低级特征。最近的几项工作 [15, 27, 11, 31, 10] 通过学习分层深度特征上的相关滤波器克服了这一限制，但实时能力在很大程度上消失了。其他深度跟踪器 [41, 30, 40] 充分利用端到端学习，并在线微调深度网络以达到最佳性能。然而，即使在高端 GPU 上，此类跟踪器的速度通常在 1 fps 左右，这对于实际使用来说太慢了。

最近的两个深度跟踪器 [3, 18] 通过在没有任何在线学习的情况下部署固定卷积网络显着提高了它们的速度。在跟踪期间，预先训练的网络在前馈通道中简单地遍历以进行相似性评估或位置回归，从而允许在 GPU 上以实时速度跟踪对象。然而，在计算能力低得多的现代 CPU、智能手机或平板电脑上，这种深度跟踪器每秒只能处理几帧，远低于正常的视频帧率 30 fps。显然，主要的计算负担来自整个网络的前向传递，并且随着更深的架构可能更大。

我们的目标是提高深度跟踪的准确性和速度，而不是通过使用压缩模型 [1] 等方式以质量换取速度。我们建议学习以自适应方式加速深度跟踪器。我们的自适应方法建立在跟踪复杂性因帧而异的观察之上。例如，使用深度网络最后一层的特征来跟踪发生较大外观变化（例如突然运动）的对象通常是有效的——因为这些更高级别的特征更能容忍剧烈的外观变化 [27]。然而，当对象在视觉上不同或几乎没有移动时，早期层在大多数情况下足以进行精确定位 - 提供大量节省计算的潜力。在极端情况下，“第 0 个”像素级层可能足以满足此类简单帧的需求，基于像素的相关滤波器的成功证明了这一点。

这种自适应策略关键取决于做出正确的决定——跟踪器应该停止在当前特征层还是继续计算下一层的特征？为此，我们学习了一个代理来自动实现这一目标，如图 1 所示。代理学习在每一层找到目标，并决定它是否有足够的信心输出并停在那里。如果没有，它会前进到下一层继续。这相当于学习一个“及时”的决策策略来选择最佳跟踪层。我们将展示这种策略学习比启发式地对当前活动层的响应图进行阈值处理要稳健得多。这也与[40]中的层选择机制形成鲜明对比，后者仅在完成整个前向传递后从两个固定级别的卷积层中进行选择。相反，我们将这个问题表述为一个决策过程，使得具有早期停止能力的顺序决策。具体来说，我们在训练阶段以强化学习 [29] 的方式学习策略，并在测试时简单地将策略应用于自适应跟踪。

这样做，我们能够提供比基线深度跟踪器 [3] 大约 10 倍（平均）的加速，并在现有的 OTB [43] 和 VOT [22] 跟踪基准上实现更高的准确度。也许最能说明问题的是，我们的方法在几乎 50% 的时间内提供了 100 倍的加速，这表明了自适应方法的强大功能——事实证明，大多数帧都很容易跟踪！准确性得到了提高，因为网络的每一层都被直接训练为自适应跟踪的信息，类似于过去的“深度监督”方法[25]。具体而言，我们的自适应跟踪器通过定义跨多个层的对象模板来工作网络，包括“第零”像素层。使用卷积滤波器跨感兴趣区域 (ROI) 评估模板。我们使用快速相关滤波器 [19] 来计算网络较低层的响应图，其中傅里叶处理显着加快了卷积过程（图 1）。我们将我们的方法称为 EArly-Stopping Tracker (EAST)。在单个 CPU 上，它的平均速度接近实时，为 23.2 fps，几乎 50% 的时间约为 190 fps。这使其成为顶级基准测试者中第一个对 CPU 友好的深度跟踪器。值得注意的是，我们的策略学习方法非常通用。此外，它很容易应用于与现有深度网络进行端到端训练，以完成除视觉跟踪之外的其他时间关键型视觉任务。

二、相关工作

实时跟踪和相关过滤器：视觉跟踪方法可以依赖于生成模型（例如 [32]）或判别模型（例如 [16]）。通过从背景中区分目标，通常发现判别模型在准确度上优于其他模型。这种跟踪器通常可以使用手工制作的特征（例如 HOG [9]）和 P-N 学习 [21]、结构化 SVM [16]、多专家熵最小化 [45] 和相关关系的各种学习方法快速运行过滤器 [4]。

其中，基于判别相关滤波器 (DCF) 的方法 [4, 19] 也是高效率和高精度的跟踪方法家族。 DCF 的快速速度是由于它通过利用离散傅里叶变换有效地利用了训练样本的所有空间位移。开创性的 MOSSE [4] 和改进的核相关滤波器 (KCF) [19] 跟踪器可以在单个 CPU 上分别以 669 fps 和 292 fps 的速度运行，这远远超过了实时要求。 DCF 的最新进展通过使用多特征通道 [14、15、27、11、31、10]、尺度估计 [13、26]、长期记忆 [28] 和边界取得了巨大的成功效果减轻 [11, 12]。但是，随着精度的提高，速度会急剧下降（在高端 GPU 上为 0.3-11 fps）。

通过深度学习进行跟踪：在深度卷积神经网络 (CNN) 的多维特征图上直接应用相关滤波器是集成深度学习进行跟踪的一种直接方式。通常深度 CNN 是固定的，在每个卷积层上训练的 DCF 跟踪器通过分层集成方法 [27] 或自适应 Hedge 算法 [31] 组合。Danelljan 等人。 [15] 最近引入了连续空间域公式 C-COT，以实现多分辨率深度特征的有效集成。 C-COT 及其改进的 ECO [10] 可以在 VOT 挑战 [22] 中达到最佳性能，但由于整个深度特征空间的高维，跟踪速度仍然很慢。

另一类深度跟踪器 [41, 30, 40] 在线更新预训练的 CNN，以说明测试时特定于目标的外观。这种跟踪器通常采用分类方法对许多块进行分类，并选择得分最高的一个作为目标对象。不幸的是，在线培训和详尽的搜索严重阻碍了他们的速度。性能最好的跟踪器 MDNet [30] 的 GPU 速度仅为 1 fps 左右。最近的进展包括使用循环神经网络 (RNN) [20, 7] 使用注意力机制对时间信息进行建模，但速度仍然很慢。

上述深度跟踪器速度慢的一个常见原因是它们总是对最后一个 CNN 层进行完整的前馈传递。这忽略了跟踪复杂性在不同条件下不同的事实。我们的结论之一是当前视频基准测试中的大多数帧都相当简单。对于那些帧，仅转发到早期层可能就足够了。原则上，这种洞察力可用于加速许多最近的实时深度跟踪器，例如 GOTURN [18]（GPU 上 165 fps）和 SiamFC [3]（GPU 上 86 fps），以使它们对 CPU 更友好接近帧率速度。

跟踪中的特征选择：好的特征对跟踪很重要。最初的 DCF 跟踪器仅限于单个特征通道，例如 MOSSE [4] 中的灰度图像。DCF 框架后来扩展到多通道特征，例如 HOG [13, 19]、Haar-like 特征 [16]、二进制模式 [21] 和颜色属性 [14] . 一般来说，手工制作的特征计算起来很便宜，但它们的判别力不足以处理复杂的跟踪场景 ios。许多最近的深度跟踪器（例如 [41, 30]）利用了最后一个 CNN 层（全连接）的语义鲁棒特征。然而，被跟踪对象的空间细节在最后一层丢失，这对于视觉跟踪不是最佳的。 Danelljan 等人。 [11] 发现第一个卷积层非常适合跟踪。其他作品 [15, 27, 31, 10] 选择利用所有分层卷积特征，其中早期层可以保持高空间分辨率，而深层则更具辨别力。

在本文中，我们在级联结构中充分利用了手工制作的深度卷积特征，并学习了一个代理来选择最小的特征层序列以实现快速跟踪目的。与 FCNT [40] 仅在完成前向传递后才从两个预定义层中选择特征不同，我们的选择是连续的，并且可以在任何层及早停止并有足够的信心。

特征级联：CNN 是一种自然的级联架构，具有越来越抽象的特征表示。 Contemporary 工作要么通过深层监督 [25] 提高级联的最优性，要么将多个 CNN 堆叠成更深的级联，以进行从粗到细 [35] 或多任务 [8] 的预测。我们的工作不同之处在于学习在级联中仅使用早期特征层的决策策略，以及结合特征级联和强化学习 [36] 来实现这一目标。我们的方法与“注意级联”结构[39]有一些相似之处，后者使用级联逐渐更复杂的分类器。不同之处在于，注意力级联旨在使用早期分类器来消除简单的负样本并减少复杂分类器评估的负担，而我们的目标是使用这些早期层来尽早做出强有力的决策。

用于跟踪的强化学习：强化学习 (RL) [29, 36] 能够学习良好的策略以根据跟踪和错误采取一系列行动。通过将其视为决策过程，它已成功应用于视觉任务（例如对象检测 [5]）。对于视觉跟踪，最近有两项工作使用 RL 在时间上关注目标区域 [44] 并选择合适的模板[6]。我们的工作是第一个使用 RL 来学习加速深度跟踪的早期决策策略的工作。

三、方法

我们使用深度卷积神经网络 (CNN) 作为强大的视觉跟踪的丰富特征级联。给定时间 t 的输入视频帧，使用边界框跟踪对象的过程可以看作是在一组假设对象区域 Rt 上最大化置信度函数 fl : Ht → R 的问题：

其中 Ht 通常由前一帧中目标位置周围的区域组成，l 表示获得目标置信度的特征层。许多深度跟踪器 [41, 30] 利用 l = L 作为 AlexNet [24] 或更深的 VGG Net [34] 的最后一个全连接层或最后一个卷积层。其他跟踪器 [15, 27, 31, 10] 利用所有卷积层的完整层集 {l}Ll=1 来充分利用特征层次结构。虽然这些方法已经成功且有效，但它们仍然很慢，并且在简单帧期间进行跟踪时可能不需要。

在本文中，我们提出了一种原则性的顺序方法，该方法从一组自适应小的特征层 {l}Lt l=1 中累积置信度 fl=1,…,Lt ®，以便在不损失准确性的情况下进行有效跟踪.例如，Lt = 2 个卷积层 C1-C2 足以跟踪图 3 中的不同人脸；但是对于杂乱背景中的模糊面孔，我们可能希望从更深的 C5 层收集更多证据。在这种顺序搜索过程中，我们的方法需要调整边界框以使用越来越强大的特征逐步定位对象。理想情况下，我们希望最小化定位对象所需的转发层数。一种天真的方法可能会使用启发式方法来确定何时前进到下一层：例如，如果当前响应图的最大值低于阈值，则可能会前进。然而，当响应图不明确或有多个峰值时（例如图 3），定义这种启发式方法可能很困难。相反，我们建议通过深度强化学习[29]来端到端地训练一个有功能的代理。代理学习动作和搜索策略（包括早期停止标准），以便它可以在不确定的情况下做出决策以达到目标。图 2 显示了我们的策略学习框架。

图 2. 我们的 EArly-Stopping Tracker (EAST) 的系统框架通过策略学习。

图 3. 在深度卷积层上调整边界框比例所采取的示例动作序列。框平移由分数图上最大分数的相对位置确定。请注意，每个分数图都是用前一层的所有图进行平均的。我们的代理学会明智地根据分数图采取行动。如果置信度得分很高，它会提前终止搜索。当分数图不明确时（例如，在杂乱的背景中有两个峰值表示模糊的脸），代理会推迟决策并根据下一层更明确的分数图扩大框。以更强的信心执行框缩放的进一步操作。

3.1 全卷积连体网络

在本节中，我们回顾了全卷积 Siamese 跟踪器 [3]，我们利用它在速度（GPU 上 86 fps）和利用深度卷积层的准确性之间进行了良好的权衡。其他跟踪器要么太慢 [15, 27, 31, 10] 作为基线（GPU 上 <11 fps），要么没有为我们的策略学习提供明确的响应图（直接回归而不是 [18]）目的。

Siamese 网络 [3] 进行离线训练，以在更大的 255 × 255 搜索图像 x 中定位 127 × 127 模板图像 z。学习相似度函数，将模板图像 z 与搜索图像 x 中相同大小的候选区域进行比较，从而为真值区域返回高分，否则返回低分。这种相似性评估是关于网络中 x 的完全卷积，比穷举搜索更有效。具体来说，提出了一个互相关层来一次性计算 x 中所有翻译子区域的相似度：

其中 φl 是第 l = 5 层（即 C5 层）的卷积特征嵌入，v ∈ R 是偏移值。这里 Fl(·,·) 是一个大小为 17×17 的置信度得分图，而不是等式中的单个置信度得分 fl(·)。 1.

在跟踪过程中，该连体网络简单地在线评估前一帧中的模板图像与当前帧中的搜索区域之间的相似度，从而加快了速度。最大分数的相对位置乘以网络的步幅，给出了对象在帧之间的平移。

我们的目标是从这些置信度得分图 Fl 中学习早期决策策略，以自适应地 1) 跨层预测对象边界框，以及 2) 当对预测有足够的信心时，在层 l < 5 处尽早停止。请注意，分数图维度取决于输入特征图的大小。早期层 l 上的分数图 Fl 将具有比 17 × 17 更大的分辨率，因此我们下采样到这个大小以方便学习。此外，SiamFC [3] 搜索搜索图像的多个尺度以处理尺度变化。我们只在原始尺度上工作以提高效率，并学习从单次前向传递期间计算的热图逐步推断框尺度。

3.2 强化学习的学习策略

我们将跟踪问题视为马尔可夫决策过程 (MDP)，其中代理可以跨特征层执行一系列动作，见图 2。该代理学习何时停止前进到下一层，以及如何每层逐渐变形边界框一次，该边界框初始化为前一帧的估计框。最终目标是用尽可能少的层在对象周围输出一个紧密的框。挑战在于能够在每一步排除监督的奖励下进行操作，同时，鉴于目标的复杂性不断变化，要尽量减少定位目标的步骤数。

我们在强化学习 (RL) 设置中训练代理以学习决策策略。在 RL 设置中，有一组状态 S 和动作 A，以及一个奖励函数 R。在第 l 层的每一步，代理检查当前状态 Sl，并决定动作 Al 是变换盒子还是停止一个盒子输出。动作 A1 有望减少定位对象的不确定性，并接收正或负奖励 R1，反映当前框覆盖对象的程度以及在动作停止之前使用了多少步。通过最大化预期奖励，代理学习了采取行动的最佳策略，并可以明确地平衡准确性（搜索更多层）和效率（如果高度自信，则尽早停止）。

动作：我们的动作集 A 包括对一个框的七个各向异性缩放变换和一个终止搜索的停止动作。我们不使用代理来预测盒子的质心，而是直接从分数图上最大分数的相对位置计算它，如方程式 1.我们还尝试要求代理报告框翻译，但发现直接从分数图推断它们简化了训练并提高了收敛性（由于动作 A 的空间更小）。

对于缩放动作，有两个全局和四个局部（修改纵横比）变换，如图 2 所示。与 [5] 类似，这些动作中的任何一个都会使框的水平和垂直变化组合为 0.2 相对于其当前大小。我们还引入了一个完全不缩放盒子的无缩放动作。当当前分数图不明确或根本无法做出决定时，此操作允许代理推迟决定。图 3 举例说明了这种情况，其中第一层得分图上存在两个峰值，用于杂乱的场景。代理决定不对这张地图采取行动，而是等待下一层更明确的地图采取行动（放大方框）。

状态：状态 Sl 表示为元组 (Fl’, hl)，其中 Fl’ 是得分图，hl 是所采取行动的历史向量。我们将 Fl’ = P lk=1 Fk/l 定义为当前层 l 的分数图的平均值及其之前层的所有先前图。因此，Fl’ 不仅编码了当前观察到的置信度，还编码了已收集的置信度历史。发现这在经验上比仅使用 Fl 工作得更好，并且类似于超列表示 [17]，其优点是同时利用来自捕获细粒度空间细节的早期层和捕获语义的更深层的信息。此外，在对已经获得的分数图进行平均时，所产生的鲁棒性成本可以忽略不计。历史向量 hl 跟踪过去的 4 个动作。向量中的每个动作都由一个 8 维单热向量或零向量表示（在处理第一层时）。我们发现包含 hl ∈ R^32 有助于稳定动作轨迹。

奖励：奖励函数 R(Sl-1, Sl) 反映了在采取特定动作 Al 后从状态 Sl-1 到 Sl 的定位精度提高。准确度是通过预测框 b 和真实框 g 之间的 Intersection-over-Union (IoU) 来衡量的。我们可以将 IoU 正式定义为 IoU(b, g) = area(b ∩ g)/area(b ∪ g)。由于每个状态 Sl 都与一个框 bl 相关联，因此奖励函数定义如下 [5]：

如果当前动作没有停止，则精度提高量化为±1。这种奖励方案鼓励积极的转变，即使是小的准确性提高。如果没有进一步改进的转换，或者代理已经到达最后一层 l = L，则动作应该停止。在这种情况下，奖励函数将惩罚 IoU 小于 0.6 的预测框 bl。请注意，这种奖励方案隐含地惩罚了大量层 l，因为 Q-learning（下文详述）在决定一个动作（正面或负面）时模拟了预期的未来奖励。

深度 Q 学习：选择动作的最佳策略应该使给定帧上的预期奖励总和最大化。由于我们没有关于要选择的正确层或动作的先验知识，因此我们通过深度 Q 学习 [29] 来解决学习问题。这种方法学习了一个动作价值函数 Q(Sl, Al) 来选择在每一层给出最高奖励的动作 Al+1。学习过程通过以下方式迭代更新动作选择策略：

其中 Q(S′, A′) 是未来奖励，γ 是折扣因子。函数 Q(S, A) 由深度 Q 网络学习，如图 2 所示。它以状态表示 S 作为输入，即重构的得分向量和动作历史向量。该网络由两个 128 维的全连接层组成，最终映射到 8 个动作。每个全连接层都是随机初始化的，然后是 ReLU 和 dropout 正则化 [24]。

请注意，在训练期间，我们不仅更新 Q-Network 的权重，而且当代理在该层上接收奖励时，还会更新预训练的卷积层。与深度监督网络[25]类似，我们的方法提供了一个直接的目标信号来学习每一层的特征表示，从而提高我们的自适应跟踪器的性能。

使用学习策略进行测试：在测试期间，代理不会收到奖励或更新 Q 函数。它只是遵循决策策略使框变形并在执行停止操作时输出。我们的代理平均只需 2.1 步即可在 OTB-50 数据集 [42] 上的帧之间定位目标。这意味着我们可以通过使用 2 个深层来正确跟踪大多数对象。仅对于那些硬帧，搜索会退化为完整的向前传球。整体跟踪算法遵循 SiamFC [3] 搜索前一帧估计位置周围的候选区域。结果，与传统的非自适应深度跟踪器相比，速度提高了一个数量级。抛开效率不谈，这些策略仍然很有吸引力，因为它们通过逐步关注特征级联中的目标区域来模仿动态注意机制。

实现细节：我们使用与 SiamFC [3] 中类似的 AlexNet [24] 卷积架构。包括 Q-Net 在内的整个网络在 ImageNet Video [33] trainval 集（4417 个视频）上训练了 50 个 epoch，每个 epoch 在代理与所有训练图像交互后完成。我们使用 ǫ-greedy [36 ] Q 学习期间的优化，以概率 ǫ 采取随机行动以鼓励探索不同的行动策略。我们在前 30 个 epoch 中将 ε 从 1 线性退火到 0.1，并在剩余的 20 个 epoch 中将 ε 固定为 0.1。我们使用学习率 1e-3，折扣因子 γ = 0.9 和批量大小 64。使用 MatConvNet [38] 在单个 NVIDIA GeForce Titan X GPU 和 Intel Core i7 CPU 上使用直接随机梯度下降更新网络参数在 4.0GHz。

3.3. 学习便宜的功能

我们的策略学习可以应用于具有任何类型特征层的特征级联。我们探索在像素层之后和更昂贵的深层之前使用额外的廉价特征层。受多通道 HOG 层 [9] 上定义的相关滤波器的成功启发，我们探索了一个可选的 HOG 层。理论上，其他便宜的功能，如颜色属性 [14] 可能适用。在处理我们的像素和 HOG 层时，我们使用了快速相关滤波器。我们特别使用了双相关滤波器（DCF）[19]，与内核相关滤波器（2 × 较慢）、STC [46]（350 fps 但精度较低）和 SRDCF [12]（5 fps）。

4 结果

在将我们的 EArly-Stopping Tracker (EAST) 与之前的工作进行比较之前，我们首先对其一些重要变体进行消融研究。我们使用不同的特征级联将 EAST 与变体进行比较——EAST-Pixel-HOG、EAST HOG、EAST-Pixel 以及基线 SiamFC [3]。图 4 显示了在不同特征层停止的概率以及 OTB-50 [42] 上的相关速度。实际上，EAST 在 70% 的时间里学会了只使用早期层，因为它们在跟踪简单帧时就足够了。硬帧使用附加层进行处理，仅在需要时退化为完整的前向传递（如在 SiamFC 中）。图 5 说明了特定视频序列上的简单帧和硬帧（以及它们的停止层）的一些示例。

显然，我们越早停止，加速就越大。 EAST-Pixel-HOG（缺少像素或 HOG 层）平均比 SiamFC 快 4.5 倍，在 CPU 上以 10.7 fps 的速度运行，在 GPU 上以 467.3 fps 的速度运行。回想一下，Pixel 和 HOG 层可以由分别以 278 fps 和 292 fps 运行的快速相关滤波器 [19] 处理。通过添加这样的层，EAST 实现了平均 10 倍的 CPU 加速，对于那些简单的帧，实现了 100 倍的 CPU 加速。尽管与像素层相比，HOG 可能会产生额外的特征计算成本，但它产生了更大的加速，因为它可以实现更多精确剪枝，因此 EAST 更经常选择。请注意，由于对 CPU 计算的更大依赖，因此在一定程度上牺牲了平均 GPU 速度。尽管如此，EAST 仍然可以产生 23.2 fps 的近实时 CPU 速率，这使得它对于 CPU 绑定跟踪非常实用（许多嵌入式设备都需要）。

表 1（顶部）总结了这些 EAST 变体的速度和准确性。我们使用重叠成功率 (OS) 作为准确度的严格评估指标。一次通过评估 (OPE) 用于比较不同阈值的 OS 速率曲线下面积 (AUC) 方面的准确性。表 1 显示，使用更多和更强的特征层系统地提高了跟踪器的准确性，我们的完整 EAST 模型的 AUC 得分达到了 0.638。由于廉价层的更大计算节省，速度也得到了提高。

表 1（中）进一步比较了其他 EAST 变体：

• EASTlast：通过始终转发到最后一个要素图层进行跟踪。

• EASTth：如果当前响应图的最大值低于0.9，则前馈。比例由阈值区域的大小决定。

• EAST−ch：不信任的策略学习他的历史，即我们使用 Fl 而不是 Fl′ = P lk=1 Fk/l。

• EAST-ah：没有动作历史hl的策略学习。

EASTlast 与基线 SiamFC [3] 相似，因为始终处理所有层，但不同之处在于它通过深度监督进行训练，并且不需要图像金字塔来建模比例。因此，它比 SiamFC 工作得更好更快（在 CPU 方面）。有趣的是，EASTlast 的表现优于 EAST，但速度要慢得多。这表明我们的自适应策略略微损害了准确性。 EASTth 利用手动设计的启发式停止算法，避免了使用 Q-Net 预测动作的需要，使其在 CPU 上的速度提高了 2 倍。然而，启发式策略的效果不如 Q-learning 学到的策略。最后，消除 scoremap 和动作历史也会损害性能，可能是因为这些历史稳定了搜索过程。

图 4. 不同特征层的停止概率以及 OTB-50 数据集 [42] 上的结果速度。对于具有不同特征级联的 5 个模型中的每一个，我们展示了 CPU 和 GPU 的平均速度（顶部），以及每层（底部）在基线 SiamFC [3]（1.9 fps）上的 CPU 加速比。 SiamFC 搜索多尺度图像以处理尺度变化，而我们在单次前向传递中预测尺度，从而实现恒定的跟踪加速。与始终使用最后一层 C5 的 SiamFC 相比，我们的早期停止策略通过自适应使用早期层进一步加速了跟踪（4.5 倍）。当早期层是廉价的 HOG 或具有快速 CPU 速度 (270+ fps) 的像素层时，我们能够将平均 CPU 速度提高一个数量级，并在近 50% 的时间内以大约 100 倍的速度运行.我们的完整模型 EAST 在 CPU 上以近乎实时的 23.2 fps 速度运行。另一方面，发现更多地依赖 CPU 计算通常会提高 CPU 速度，但也会在一定程度上失去 GPU 速度的好处。

图 5. 视频 David（原始视频的第 300-770 帧）和 Tiger2 中帧的停止特征层。简单和硬框架用绿色和红色标记。

OTB-50 结果：OTB-50 [42] 基准包含 50 个用于评估的视频序列。表 2 比较了我们的 EAST 和最先进的跟踪器的 AUC 分数：TLD [21]、GOTURN [18]、Struck [16]、KCF [19]、DSST [13]、MEEM [45 ]、RTT [7]、FCNT [40]、Staple [2]、HDT [31]、HCF [27]、LCT [28]、SiamFC [3] 和 SINT [37]。CPU/GPU 速度 (fps) 为也报道了。

表 1. OTB-50 数据集上曲线下面积 (AUC) 得分和速度 (CPU/GPU fps) 的一次性评估 (OPE) 结果。

EAST 达到了所有方法中最高的 AUC。它这样做的同时明显更快。例如，亚军 SINT 在 GPU 上为 4 fps，而其他基于 GPU 的实时深度跟踪器（GOTURN 和 SiamFC）在 CPU 上的速度明显较慢（2-3 fps）。与快速相关跟踪器相比，例如 KCF 定义在廉价功能上，EAST 明显更准确，同时仍保持近乎实时的速度。这与在深度特征（HCF 和 HDF）上定义的相关过滤器形成对比，后者即使使用 GPU 也不是实时的。 Staple 跟踪器通过脊回归结合 HOG 和颜色特征，而 FCNT 通过从深层选择特征进行跟踪。 EAST 在准确性方面均优于其他形式。循环目标参与跟踪器 (RTT) 训练循环神经网络 (RNN) 以捕获注意力作为相关过滤器映射的正则化。但是，它明显比 EAST（CPU 上 3 fps，AUC 为 0.588）慢且准确度更低。

表 2. OTB-50 数据集上单次评估 (OPE) 的曲线下面积 (AUC) 得分和速度（fps，* 表示 GPU 速度，否则表示 CPU 速度）。最佳结果以粗体显示。

OTB-100 结果：OTB-100 [43] 数据集是 OTB-50 的扩展，更具挑战性。我们对全部 100 个视频进行测试，以与最近的相关跟踪器进行比较：RDT [6]、SRDCF [12]、MDNet [30]、C-COT [15]、ECO [10]。表 3 总结了他们的 AUC 分数和 CPU/GPU 速度。 EAST 在准确性方面接近于最先进的水平，并且是 OTB-100 上表现最好的人中最快的。 MDNet 和基于相关过滤器的广告 SRDCF、C-COT 和 ECO 都存在速度低的问题，而 EAST 并没有为了准确度而牺牲运行时性能。 RDT 是一种相关的基于强化学习 (RL) 的方法，它选择最佳模板来跟踪给定帧。 EAST（也利用了 RL）被证明更准确，同时在 GPU 上的速度提高了 4 倍。

表 3. OTB-100 数据集上单次评估 (OPE) 的曲线下面积 (AUC) 得分和速度（fps，* 表示 GPU 速度，其他明智的 CPU 速度）。最佳结果以粗体显示。

图 6. 与 VOT-14 Challenge 的 38 个跟踪器相比，我们的跟踪器（红色）的总体排名和运行时间。我们展示了 EAST 及其两个变体的结果，它们总是转发到第一个（即像素层上的 DCF）和最后一个（即 EASTlast）特征层。

VOT-14 结果：我们在来自 VOT-14 [23] Tracking Challenge 的 25 个视频上测试 EAST。图 6 比较了 EAST 与 38 个跟踪器子任务的速度和总体排名。对于排名计算，挑战首先评估每个跟踪器的平均准确度和鲁棒性排名（详见补充材料），然后将两个排名值平均以获得总体排名。从图 6 可以看出，EAST 实现了最佳精度速度权衡，在整体排名中优于所有竞争对手。我们还展示了两个相反的 EAST 变体：总是转发到第一个（即像素层上的 DCF [19]）和最后一个（即 EASTlast）特征层。我们的 EAST 能够通过策略学习自适应地利用两种变体的速度和准确性优势。

表 4. 我们方法的原始分数和速度以及 VOT-15 挑战的前 4 名跟踪者。 * 表示以 EFO 为单位的速度。给出了我们 EAST 的 CPU/GPU 速度。

VOT-15 结果：VOT-15 [22] Tracking Challenge 从 356 个视频池中选择了 60 个测试视频。跟踪器在失败后五帧自动重新初始化（零重叠）。表 4 在准确性和速度方面将我们的 EAST 与前 4 名跟踪器进行了比较（使用 vot 挑战工具包）。我们在此基准测试中的测试速度为 CPU 21 fps 和 GPU 148 fps，使 EAST 成为性能最高且对 CPU 最友好的跟踪器。我们获得了与 MD Net 相当的准确度分数，同时在 GPU 上提供了 148 倍的加速，这表明了我们自适应策略学习方法的强大功能。

5、结论

本文提出了一种自适应方法来跟踪深度特征级联。我们的基本见解是，典型跟踪场景中的大多数帧都很容易，因为简单的特征（例如像素或 HOG）就足够了。也就是说，一些具有挑战性的框架确实需要在变体特征处理中“繁重”。挑战在于确定哪个是哪个！通过将跟踪问题制定为决策过程，我们学习了一个可以做出这种区分的强化学习代理。重要的是，代理以迭代的方式学习这样做，有效地利用特征级联，仅当当前的级联不够时才进入更深的层。这极大地降低了那些简单帧的前馈成本（降低了 100 倍），从而显着提高了跟踪的整体速度。这种策略学习方法很有吸引力，因为它是端到端训练的，可以应用于为时间关键任务设计的任何深度网络。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。