900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 论文阅读笔记:Retinal vessel segmentation based on Fully Convolutional Neural Networks

论文阅读笔记:Retinal vessel segmentation based on Fully Convolutional Neural Networks

时间:2024-05-06 02:38:03

相关推荐

论文阅读笔记:Retinal vessel segmentation based on Fully Convolutional Neural Networks

基于全卷积神经网络的视网膜血管分割

关键词:全卷积神经网络、平稳小波变换、视网膜眼底图像、血管分割、深度学习

摘要

本文提出了一种新的方法,将平稳小波变换提供的多尺度分析与多尺度全卷积神经网络相结合,来处理视网膜血管结构的宽度和方向的变化。我们的方案使用旋转操作作为数据增强和预测的联合策略的基础,这使我们能够探索在训练中学习到的信息,从而细化分割。该方法在三个公开可用的数据库上进行了评估,在DRIVE、STARE和CHASE_DB1数据库上的ROC曲线平均面积分别为0.9821、0.9905、0.9855,平均准确率分别为0.9576、0.9694、0.9653。它对训练集和评分者之间的可变性似乎也很健壮,这显示了它在实际应用中的潜力。

1.介绍

本文对视网膜血管分割问题的主要贡献如下。我们提出旋转操作作为数据增强和预测联合策略的基础。尽管数据增强是一种众所周知的技术,但我们在这里探索训练过程中获得的有关血管排列和方向的信息,以改进分割。我们还研究了通过SWT将图像分解为将新的输入通道添加到完全卷积神经网络FCN中的方法;这一贡献与体系结构无关,但这里我们将展示如何将多尺度体系结构与SWT相结合,以更好地处理不同尺度的视网膜血管。

2.方法

图1a给出了所提议的方法的概述。主要分为四个阶段:通过SWT构建输入、提取patch、通过FCN分类和多重预测

图1所示。方法概述:(a)框图;(b) FCN架构

2.1平稳小波变换

SWT(Holschneider,Kronland-Martinet,Morlet,&Tchamitchian,1990)最初设计用于克服离散小波变换(DWT)的两个缺点:(1)DWT不是平移不变的; (2)它只能用于二元尺寸的图像(Holschneider等,1990)。 在这里,我们提出SWT作为丰富FCN输入的方法。 我们在DWT上使用SWT,因为它没有对系数进行下采样,保留了初始像素数。 因此,它允许我们为输入添加新的额外通道。

2.2 patch提取

在我们的方法中,根据算法的阶段不同,得到了不同的patch。在训练期间,我们分别从Drive、Stear和Chase DB1数据库的每个图像中提取了2750、3250和3750个patch。我们注意到,在较大的图像中使用更多的patch可以使网络受益,这些值是通过实验发现的。另外,我们在这个阶段没有应用任何限制,所以允许重叠的patch。然而,在测试期间,我们确保输出patch之间没有重叠,即每个像素仅被分割一次。这是通过对原始图像进行零填充来完成的,使其维数成为输出修补程序大小的整数倍。此外,我们应用了重叠平铺策略(Ronneberger等人,),其中每个输出patch只包含输入图像中可用的完整上下文的像素。这是导致88×88输入补丁和32×32输出补丁尺寸不匹配的主要原因(图1b)。

2.3全卷积神经网络

在CNNs非常适合处理视觉信息的原因中,有两个关键的概念:本地连接和共享权重。局部连通性意味着每个隐藏的单元只寻找它自己的接受域,这大大减少了权重的数量。权值共享的发生是因为同一组权值对整个图像进行卷积,这也提高了计算效率,并为CNNs提供了平移不变性(LeCun et al., )。在以下几行中,我们将讨论在处理CNNs时有关一些基本方面的决定。

2.3.1初始化

我们采用了Xavier初始化(Glorot & Bengio, ),使我们能够在受控的水平上保持梯度,从而防止梯度在反向传播过程中消失。

2.3.2激活函数

在这里,我们的选择线性修正单元(ReLU)函数f (x) = max(0,x),与其他非线性函数,如sigmoid或双曲正切函数相比,可以加快训练速度

2.3.3池化

我们使用了max pooling,它丢弃了可能的冗余特性,使表示对小细节保持不变(Lecun等人,)。

2.3.4上采样

为了使特征图恢复到初始尺寸,我们使用了最近邻插值

2.3.5正则化

Tompson, Goroshin, Jain, LeCun, and Bregler()提出当面对高空间相关性的自然图像时,标准的dropout 可能效率较低,因为同一特征图中的相邻单元也变得高度相关。因此,我们采用了spatial dropout(Tompson et al., ),它删除了整个feature map,而不仅仅是一些节点。这样,每个特征图中的相邻单元要么全部中和,要么全部激活。所有卷积块都使用相同的概率p,除了最后一个应用plast的块。

2.3.6架构

随着FCN的出现,多尺度体系结构(又称编码器-解码器网络)越来越流行。龙等人的工作()可能是第一个研究将特征图与不同抽象层次合并的想法,但在短时间内遵循了其他几种用于语义分割的多尺度方法。在医学图像分割中,这种趋势导致了U-net

在我们的网络中,4通道输入patch的第一个通道是从视网膜图像的绿色通道中提取并将其标准化为零平均值和单位方差。剩下的通道是通过在第一个通道上应用SWT,然后按照相同的标准化过程来获得的。在第4.1节中,我们仅使用绿色通道评估我们的提案。在第4.2节中,我们展示了包含SWT通道的好处。 我们在所有卷积层中使用小的3×3卷积核(1×1线性卷积除外)。 堆叠较小的卷积核可以确保较大的卷积核具有相同的有效感受域,同时减少权重(Simonyan&Zisserman,)。 这些和其他超参数总结在表1中。其中,最小批量大小(patch size)为4意味着在每个迭代中有四个输入patch通过网络传播。

2.3.7训练

在优化过程中,我们利用Nesterov动量随机梯度下降(Nesterov, 1983)最小化分类交叉熵损失函数。

此外,根据表2,动量ν和学习率η在特定时期都发生了变化。除此之外,我们还在这些变化之间进一步衰减后一个,根据:

其中ηn和ηn−1分别表示现在和以前的学习率更新,λ是学习速率衰减。其中epoch表示对所有训练样本的完整遍历,而update表示每次迭代后权重的更新。

2.4数据扩充和多重预测

在我们的数据增强过程中,每个原始patch分别旋转90°、180°和270°。然后,将这些patch随机放入训练向量中。patch的数量增加了4个(因为原始补丁也包括在内)。为了避免插值,只使用90°的倍数。此外,每个操作都应用于原始patch和各自的标签patch,以保持一致。

3.实验设置

3.1数据集

DRIVE数据库包含40幅图像,其中7幅显示病理信号。每个图像的分辨率为565×584,每个通道8位。STARE数据库(Hoover et al., 2000)包含20幅图像,其中10幅属于病人。这些图像的分辨率为700×605,每个通道24位。CHASE_DB1数据库(Owen et al., )有28张图像,收集自14名儿童的双眼。每幅图像的分辨率为999×960。在DRIVE情况下,全局集分为训练集和测试集,每个集具有20个图像。 因此,在测试集上评估模型。 然而,在其余两个案例中,没有明确的分歧。 鉴于此,使用分层k倍交叉验证来训练模型,其中原始集合被划分为k个相等大小的折叠。 验证过程重复k次,每次折叠保留为测试集,剩余的k-1倍用于训练。 然后将结果平均以产生单一估计。 在STARE案例中,我们确定k = 5,具有4个图像的5倍。 此外,我们通过确保每个图像中的一半图像属于病理个体来对褶皱进行分层。 在CHASE_DB1的情况下,我们使用k = 4,获得7个图像的4倍。 这次,每个折叠包括一只眼睛的3张图像和另一只眼睛的4张图像。

当使用k-fold交叉验证时,所有折叠都使用相同的体系结构。这个网络在每个折叠处都是从零开始训练的。

3.2评估指标

为了与其他最先进的作品进行比较,我们使用了文献中常见的四个指标:敏感度(Sn),特异性(Sp),准确性(Acc), ROC曲线下面积(AUC)。

3.3实现细节

该方法采用KerasTensorFlow backendcuDNN 5.1实现。所有测试都是在配备NVIDIA GeForce GTX 1070 GPU、Intel Core i7-6850K CPU @ 3.60 GHz处理器、128gb RAM和运行Linux Mint 18 OS的台式机上进行的。

4.结果和讨论

我们首先验证基本系统的关键组件。然后,将SWT获得的通道加入到模型中,得到最优模型。完成这些步骤后,我们将最佳模型与其他最先进的作品进行比较。使用交叉训练策略评估临床适用性。最后,我们分析了模型在面对利率变动时的行为。

4.1基本系统的验证

我们从评估我们的基础系统开始,包括数据扩充、预测和正则化。各变量的结果如表3所示,概率预测如图4所示。所有的测试都是在相同的条件下进行的,唯一的可变性来源是正在研究的成分。

图4所示。基础系统各组成部分对概率预测的影响:(a)第一人类观察者的分割;(b)没有增加;©采样过密;(d)弹性样品;(e)连续旋转;(f)简单的预测;(g)标准辍学;(h)基本系统。黄色标记表示与基本系统相关的假阳性增加,而橙色标记表示假阴性增加。

4.1.1数据扩充

为了验证第2.4节中描述的过程,我们研究了四种替代方案。 首先,我们通过不执行数据扩充(无增强)将每个映像的补丁总数减少到3000。 然后,我们以三种不同的方式将补丁总数增加到12,000。 在第一种情况下,我们通过提取9000多个原始补丁(过采样)对图像进行过采样。 在第二个中,剩余的9000个贴片是通过非线性变形每个贴片人工创建的,如Oliveira等人所述。 () - 弹性样品。 使用不同的(α,σ)组合获得每组3000个弹性贴片:(8,1.5),(16,2.5)或(32,3)。 手动找到这些值,确保人造样品及其各自的注释保持一致的外观。 最后,我们使用了9000个旋转补丁,就像在基本系统中一样,但我们连续放置它们(不是随机的) - 连续旋转。

以基本系统为参考,我们可以看到,将patch数量减少4个,Acc和AUC的结果明显恶化。此外,无论是使用原始贴片还是弹性贴片来保持初始样本量时,与参考值的差异几乎是相同的。直接观察图4,我们注意到这些方法有利于FN和FP同时出现,弹性斑块导致检测到的血管段弯曲度更大。总的来说,这意味着网络从旋转编码的信息中获益最大。另一个重要的注意事项与这些旋转呈现给网络的方式有关。回顾2.4节,我们看到FC-CNNs设计了一些数据增强策略(Dieleman et al.;Worrall et al.)要求将旋转后的版本连续排列。连续旋转测试表明,旋转后的斑块之间的确定性邻近性不利于FCN的性能,网络检测血管段的难度更大,如图4所示。

4.1.2多重预测

在验证了旋转贴片给模型带来的好处后,我们着手研究这些好处是否可以外推到预测中。我们的想法是用原始补丁及其旋转同步地激活网络,执行输出的平均值,如

2.4节。

在这里,我们将使用我们的多个预测方案的基本系统与简单的预测变体进行了比较。从表3可以看出,在Acc和AUC方面,基本系统都表现得更好。此外,比较两种方法的预测结果(图4),我们注意到多重分割方案使模型更不容易发生FP,这在医学应用中尤为重要。值得注意的是,即使平均值的变化较小,两种方法之间也存在统计学上的显著差异。

4.1.3正则化

最后,我们通过比较2.3.5节中描述的spatial dropout技术和标准dropout来研究模型的正则化。

仍然以基本系统作为参考,我们可以看到标准策略导致了统计上Acc和AUC(表3)显著的下降。总的来说,预测结果非常相似,但是当使用标准dropout时,模型检测到的血管段似乎更少(图4)。

4.2平稳小波变换的验证

在分析了我们的基本系统之后,我们评估了将SWT合并到其中的效果。各变量的结果如表4所示,概率预测如图5所示。通过改变输入通道的总数,将来自SWT的补丁连接到输入中。我们只使用了细节系数,因为我们的目标是增强图像的转换。我们首先将初始绿色通道输入BS + d1中第一级的细节系数串联起来。然后,我们加上b + d1 + d2。最后,只有后者保留了BS + d2。

分析所执行测试的结果,我们注意到所有替代策略在Acc和AUC方面改善了基本系统的性能。这意味着使用基于小波分解的特征,其对血管分割的有效性是众所周知的(Soares等人,; Zhang等人,),当与深度学习方法相结合时也是有益的。特别是,我们看到BS + d1上使用的第一级SWT系数不如BS + d2上应用的第二级SWT系数有效。第一级转换较高频率的频谱信息;这似乎引起了更多的误报,如图5所示。另一方面,第二级SWT系数在Acc和AUC中引入了与基础系统的统计显着差异,这似乎强化了这一观点。甚至深度学习方法也可以从领域知识中受益。事实上,他们允许减少假阳性和假阴性的组合,如图5所示。从现在开始,我们将参考最佳模型(BS + d2)作为建议。

图5所示。包含SWT通道对两个不同patch的概率预测的影响:(a)第一人类观察者的分割;(b)基地系统;© BS + d1;(d) BS + d2(最佳模型)。绿色标记表示减少与基本系统相关的误报;蓝色标记表示假阴性的减少;黄色标记表示假阳性增加。

4.3血管分割

将概率图阈值设为0.5,得到二值分割。我们注意到,计算中只使用了视场(FOV)中的像素。

每个数据库的结果如表5所示。得到的平均Acc值高于所有数据库中第二个观察者的平均值。Sp也发生了同样的情况,这表明该网络几乎没有出现假阳性,没有作为血管发出损伤或泄漏区域的信号。在DRIVE和CHASE_DB1数据库中,平均Sn值超过了第二个观察者,说明该网络也很少对血管像素进行误分类。在STARE数据库中,这种倾向不足以与第二个观察者保持一致,因为他系统地标记了第一个观察者看不到的血管。

DRIVE数据库中,最佳情况下的Sn、Sp、Acc和AUC值分别为0.9119、0.9742、0.9667和0.9903,最差情况下的分别为0.7628、0.9816、0.9497和0.9786(图6a)。STARE数据库中,最佳情况为0.8527、0.9936、0.9837、0.9964,最差情况为0.7231、0.9827、0.9503、0.9791(图6b)。最后,对于CHASE_DB1数据库,最佳情况为0.8541、0.9844、0.9744、0.9909,最差情况为0.8065、0.9749、0.9574、0.9808(图6c)。

图6所示。每个数据库的分割示例:(a)DRIVE;(b)STARE; © CHASE_DB1。第一行显示了最好的情况,而第二行显示了最差的情况

在计算性能方面,网络的训练时间约为4小时,每幅视网膜图像的完整分割时间约为2秒。

4.4与最先进的比较

如前面表5所示。

4.5交叉训练

在现实情况下,当需要分割新的图像时,对模型进行再训练是不可行的。此外,一个可靠的方法必须成功地分割每个图像,即使采集设备属于不同的制造商。也就是说,对训练集的鲁棒性对于模型的实际应用是至关重要的。在本研究中,我们在DRIVE数据库和STARE数据库之间进行交叉训练,因为这两种数据库在这方面的应用最为广泛(Fraz et al., b;李等,;Marin等,;Roychowdhury等,a;苏亚雷斯等,;张等,)。结果如表6所示。

4.6对评分者之间变化的鲁棒性

专家之间并不总是意见一致,因为有些专家系统地比其他专家看到更多的血管。此外,即使血管是清晰的,对其口径的估计也可能出现差异。由于这些原因,在评价过程中,评价者之间的差异总是存在的。在这里,我们讨论这种可变性如何影响得到的结果。

表7.DRIVE、STARE和CHASE_DB1数据库上的分割结果,使用第二人类观察者的注释作为测试的黄金标准。我们也评估了第一个人类观察者与第二个的关系。粗体值显示两种方法之间的最佳得分;下划线值表示可以拒绝原假设的度量(当面对原假设时,pvalue < 0.05)

除STARE数据库外,其余两个数据库中专家打分模式没有明显差异。也就是说,我们可以看到第一个观察者标记了第二个观察者看不到的血管,反之亦然。这可以从图7中推导出来,在图7中,我们比较了两个观察者对每个数据库的注释。我们认为,这一显着的不一致可能成为未来改进的限制因素,因为该领域的当前结果已经非常准确。

图7所示。每个数据库的第一和第二人工观察者的注释比较:(a)DRIVE;(b)STARE;和© CHASE_DB1。第一行是根据第2个观察者评价模型改进程度最高的情况的比较(模型/第1个观察者的Acc值为0.9692/0.9467,0.9647/0.9527,0.9643/0.9613);第二行是最糟糕的情况(Acc值分别为:0.9582/0.9446、0.9028/0.8968、0.9492/0.9480)。每种颜色代表一种不同的情况:黑色两种标记作为背景;白色标记为容器;只有第一个观察者标记为血管;蓝色只有第二个观察者标记为血管。

5.总结

本文提出了一种新的基于FCN的视网膜血管分割方法。我们使用旋转操作来增加数据,并引入了一种新的方法来使用它们在训练期间提供的信息来加强预测。此外,我们还研究了通过SWT分解将新通道添加到FCN中。这使得Acc和AUC的性能得到了提高,减少了FP和FN的组合,说明深度学习方法仍然为领域知识留有空间。三个公共数据库的结果表明,我们与最先进的方法具有竞争力。在Acc方面,我们在DRIVE和CHASE_DB1数据库中排名第一,而在STARE中排名第二。在AUC方面,我们领先于他们。

我们的方法被证明对训练集和评分者之间的变异性具有很强的鲁棒性,这显示了它在实际筛选和诊断系统中的应用潜力。完全分割视网膜图像大约需要2秒

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。