【语义分割】Auto-DeepLab Hierarchical Neural Architecture Search for Semantic Image Segmentation阅读翻译_会意的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

胡子拉碴的铁链 · 购买 11 英寸 iPad Air ...· 2 月前 ·

欢乐的足球 · 我院马晓春、王玮、张静萍、崇巍荣获辽宁五一劳动奖章· 4 月前 ·

乐观的酸菜鱼 · 苏州高铁新城南部核心片区搬迁清零 - 发展动态· 6 月前 ·

眼睛小的篮球 · 财神殿前许愿你我岁岁平安，发大财-携程攻略· 9 月前 ·

个性的灯泡 · 美女进帝王后宫很浪漫吗？真相是你想象不到的残 ...· 10 月前 ·

【语义分割】Auto-DeepLab Hierarchical Neural Architecture Search for Semantic Image Segmentation阅读翻译

2019-01-16 13:49:07

论文地址： https://arxiv.org/abs/1901.02985 1月10号提交
代码：2019.05.03更新，找到一份非官方的Pytorch实现代码 https://github.com/MenghaoGuo/AutoDeeplab
作者：Chenxi Liu, Liang-Chieh Chen, Florian Schroff, Hartwig Adam, Wei Hua, Alan Yuille, Li Fei-Fei

参考资料：李飞飞等人提出Auto-DeepLab：自动搜索图像语义分割架构-机器之心

摘要
1.介绍
2.相关工作
3.架构搜索空间
- 3.1单元级搜索空间
- 3.2网络级搜索空间
4.方法
5.实验结果
- 5.1架构搜索实现细节
- 5.2语义分割结果
- 近期，在大规模图像分类问题上神经架构搜索（Neural Architecture Search,NAS）确定的神经网络框架的表现超越了人类设计的网络。本论文将研究用于图像语义分割的 NAS，图像语义分割是将语义标签分配给图像中每个像素的重要计算机视觉任务。现有的研究通常注重搜索可重复的单元结构，而对控制空间分辨率变化的外部网络结构进行人工设计。这种做法简化了搜索空间，但对于具备大量网络级架构变体的密集图像预测而言，该方法越来越成问题。因此，我们建议 除了搜索单元级结构之外还要搜索网络级架构，从而形成分层架构搜索空间 。我们提出包含许多流行网络设计的网络级搜索空间，并提出一个公式来进行基于梯度的高效架构搜索（Cityscapes 图像上使用P100 GPU需要3天）。我们证明了所提方法在具有挑战性的Cityscapes，PASCAL VOC 2012和ADE20K数据集上的有效性。在不经任何 ImageNet 预训练的情况下，我们搜索得到的专用于语义图像分割的架构获得了当前最优性能。
  
  深度神经网络已被证明在各种人工智能任务中都是成功的，包括图像识别[38,25]，语音识别[27]，机器翻译[72,80]等。虽然更好的优化[36]和更好的归一化技术[32,79]在其中发挥了重要作用，但很多进展都来自神经网络架构的设计。在计算机视觉中，这适用于图像分类[38,71,74,75,73,25,84,31,30]和密集图像预测[16,51,7,63,56,55]。
  
  最近，本着AutoML和AI民主化的精神，人们对自动设计神经网络架构非常感兴趣，而不是非常依赖专家经验和知识。重要的是，过去的一年中，神经架构搜索（NAS）在大规模图像分类问题[92,47,61]上已成功提出超出人类设计架构的网络框架。
  
  图像分类（Image classification）是NAS一个很好的起点，因为它是最基础和研究最充分的高级识别任务。同时，该研究领域存在具有规模相对较小的基准数据集（如 CIFAR-10），这减少了计算量并加快了训练速度。然而，图像分类不应该成为NAS的终点，当前的成功表明它可以扩展至要求更高的领域。在本文，我们研究了将神经架构搜索用于图像语义分割的方法，图像语义分割是计算机视觉中的重要任务，它将诸如“person”或“bicycle”等标签分配给输入图像的每个像素。
  
  简单地将图像分类中ideas移植不足以进行语义分割。在图像分类中，NAS通常使用从低分辨率图像到高分辨率图像的迁移学习[92]，而语义分割的最佳框架必须固有地在高分辨率图像上运行。这提示我们需要： (1)一个更宽松和通用的搜索空间，用于捕捉更高分辨率带来的架构变化，和(2)一个更高效的架构搜索技术，因为更高的分辨率需要更多的计算 。
  
  我们注意到 现代CNN设计[25,84,31]通常遵循两级分层结构(two-level hierarchy)，其中外部网络级控制空间分辨率变化，内部单元级控制特定的分层计算 。当前NAS [92,47,61,59,49]的绝大部分工作遵循这种两级分层设计，但 只在内部单元级别使用自动搜索，而外部网络级别使用手动设计 。这种有限的搜索空间对于密集图像预测而言是一个问题，因为密集图像预测对空间分辨率变化很敏感。因此在我们的工作中，我们 提出了类似网格的网络级搜索空间，它增强了[92]中首次提出的常用单元级搜索空间，从而形成分层架构搜索空间 。我们的目标是 联合学习到专门用于图像语义分割的可重复的单元结构与网络结构的良好组合 。
  
  就架构搜索方法而言，强化学习[91,92]和进化算法[62,61]即使在低分辨率CIFAR-10数据集上也往往是计算密集型的，因此可能不适合图像语义分割。 我们从NAS的可微分公式[68,49]中汲取灵感，并开发出与分层架构搜索空间完全匹配的连续松弛的离散架构 。分层架构搜索通过随机梯度下降进行。当搜索终止时， 最好的单元架构会被贪婪解码，最好的网络架构会有效的通过Viterbi算法解码 。我们直接在裁剪得到的Cityscapes[13] 321×321图像上进行架构搜索。该搜索十分有效，在单个P100 GPU上只需要花费3天时间。
  
  连续松弛的离散架构没看懂，下面仔细琢磨琢磨。
  
  我们报告了多个语义分割基准的实验结果，包括Cityscapes [13]，PASCAL VOC 2012 [15]和ADE20K [89]。在未经ImageNet[64]预训练的情况下，我们的最佳模型在Cityscapes测试集上的性能超过FRRN-B [60] 8.6％，超过GridNet [17] 10.9％。当利用Cityscapes粗略标注数据时，我们的模型与其他经过ImageNet预训练的最先进模型[81,87,4,11,6]表现相当。值得注意的是，我们的最佳模型（没有预训练）获得与DeepLabv3 + [11]（有预训练）相同的性能，但在Multi-Adds中的速度提高2.23倍。此外，我们的轻量级模型的性能仅比DeepLabv3 +低11％[11]，但参数减少了76.7％，在Multi-Adds中的速度提高了4.65倍。最后，在PASCAL VOC 2012和ADE20K上，我们的最优模型在使用极少数据进行预训练的情况下，性能优于几个当前最先进模型[89,44,81,87,82]。
  
  总而言之，我们论文的贡献有四个方面：
  - 我们是首次将NAS从图像分类扩展到密集图像预测的尝试之一。
  本文第二作者去年9月份发表了一篇也是用NAS做语义分割，即本文中的参考文献6，代码就放在Deeplab中罒ω罒，详见我另外一篇文章： https://blog.csdn.net/mooneve/article/details/83144385 （这篇内容我都忘差不多了-_-||，正好回去再看一次，只记得性能和DeeplabV3+相似，但参数数量和训练时间少了很多。）
  - 我们提出了一个网络级架构搜索空间，它可以增强和补充已经得到深入研究的单元级架构搜索，并对网络级和单元级架构进行更具挑战性的联合搜索。
  - 我们开发出一个可微的连续公式，它可以在两级分层架构上进行有效搜索，在单个GPU上只需3天。
  - 在Cityscapes上，未经ImageNet预训练的情况下，我们的模型显著优于FRRN-B和GridNet，经过ImageNet预训练的情况下，我们和其他最先进模型的表现相当。在PASCAL VOC 2012 和ADE20K上，我们最好的模型也优于几个当前最先进的模型。
  2.相关工作
  
  图像语义分割 以全卷积方式应用的卷积神经网络[42]（FCN [67,51]）在几个语义分割基准上取得了显着的成绩。在最先进的系统中，有两个重要组件： 多尺度上下文模块和神经网络设计 。众所周知，上下文信息对像素标记任务至关重要[26,69,37,39,16,54,14,10]。因此，PSPNet [87]在几个网格尺度上应用空间金字塔池化[21,41,24]（包括图像级池化[50]），而DeepLab [8,9]应用几个并行的有不同孔洞率的孔洞卷积[28,20,67,57,7]。另一方面，神经网络设计的改进极大地将性能从AlexNet [38]，VGG [71]，Inception [32,75,73]，ResNet [25]，推动到更新的架构，如Wide ResNet [ 85]，ResNeXt [84]，DenseNet [31]和Xception [12]。除了采用这些网络作为语义分割的主干网络之外，还可以采用编码器 - 解码器结构[63,2,55,44,60,58,33,78,18,11,86,82]，它们在保持对象详细边界的同时有效地捕获了长距离的上下文信息。然而，对于语义分割任务，大多数模型需要从经过ImageNet [64]预训练的checkpoint开始进行初始化，除了FRRN [60]和GridNet [17]。具体来说，FRRN [60]采用双流系统，其中一个流携带全分辨率信息，另一个流池携带上下文信息。GridNet建立在类似的想法之上，它包含多个具有不同分辨率的流。在本文工作中， 我们使用神经架构搜索找到特定于语义分割的网络骨干 。我们进一步展示了没有经过ImageNet预训练的最先进的性能，并且在Cityscapes[13]上显著优于FRRN [60]和GridNet [17]。
  
  神经架构搜索方法 神经架构搜索旨在自动设计神经网络架构，从而最大限度地减少人工时间和工作量。虽然有些工作[22,34,91,49]搜索RNN单元用于语言任务，但更多工作搜索良好的CNN架构进行图像分类。
  
  一些论文使用强化学习(reinforcement learning)（policy gradients[91,92,5,66]或Q-learning[3,88]）来训练递归神经网络，该神经网络表示一个策略，该策略用于生成一个符号序列，其中符号指定特定的CNN架构。RL的替代方案是使用进化算法（evolutionary algorithms,EA），通过改变迄今为止发现的最佳架构来“进化”架构[62,83,53,48,61]。然而，这些RL和EA方法在搜索过程中往往需要大量计算，通常需要单个GPU运行几千天。PNAS [47]提出了一种渐进式搜索策略，该策略显著降低了搜索成本，同时保持了搜索架构的质量。NAO [52]将架构嵌入到潜在空间中并在解码之前执行优化。此外，一些工作[59,49,1]利用了采样模型之间的架构共享，而不是单独训练它们中的每一个，从而进一步降低了搜索成本。 我们的工作遵循可微分的NAS公式[68,49]，并将其扩展到更一般的分层设置中 。
  
  神经架构搜索空间 早期论文，如[91,62]，试图直接构建整个网络。然而，最近更多的论文[92,47,61,59,49]已转向搜索可重复的单元结构，同时保持外部网络级结构手动固定。这种策略在[92]中首次提出，很可能是受到现代CNN中常用的两级分层结构的启发。
  
  我们的工作仍然使用此单元级搜索空间，从而与以前的工作保持一致。然而，我们的一个贡献是提出一个新的通用网络级搜索空间，因为我们希望联合搜索这个两级分层结构。我们的网络级搜索空间与[66]相似，但重要的区别在于[66]保持整个“结构”无意改变架构，而 我们将每个连接的权重显式关联起来并专注于解码单个分离的结构 。同时，[66]是对人脸图像分为3类[35]进行评估，而我们的模型则在大规模数据集上进行评估，如Cityscapes [13]，PASCAL VOC 2012 [15]和ADE20K [89]。
  
  与我们最相似的工作是[6]，它也研究NAS用于图像语义分割。然而， [6]专注于使用随机搜索方法搜索更小的孔洞空间金字塔池（Atrous Spatial Pyramid Pooling,ASPP）模块，而我们专注于使用更先进和更有效的搜索方法搜索更基本的网络骨干架构。
  
  3.架构搜索空间
  
  本节介绍我们的两级分层结构搜索空间。对于内部单元级（第3.1节），我们复用[92,47,61,49]中采用的方法，从而与以前的工作保持一致。对于外部网络级（第3.2节），我们基于对许多流行设计的观察和总结提出了一种新颖的搜索空间。
  
  3.1单元级搜索空间
  我们将一个小的全卷积模块定义为一个单元（cell），通常它会在整个神经网络中重复很多次。更具体地说，一个单元是由 $的集合由以下8个操作(operator)组成，这些操作在现代CNN中都很普遍：$
  - 3 × 3的深度分离卷积
  - 5 × 5的深度分离卷积
  - 3 × 3的孔洞卷积，孔洞率为2
  - 5 × 5的孔洞卷积，孔洞率为2
  - 3 × 3的平均池化
  - 3 × 3的最大池化
  - 跳跃连接(skip connection)
  - 无连接(no connection(zero))
  对于可能的组合操作(combination operators) $的集合,我们只采用简单的对应元素相加这个方法。$
  3.2网络级搜索空间
  在由[92]开创的图像分类NAS框架中，一旦找到单元结构，整个网络就使用预定义的模式构建。因此，网络级不是架构搜索的一部分，因此其搜索空间从未被提出或设计过。
  
  这种预定义的模式简单明了：通过插入“缩小单元”（将空间分辨率除以2并将滤波器数乘以2的单元），将许多“正常单元”（保持特征张量空间分辨率的单元）平等的分隔开。这种下采样策略在图像分类情况下是合理的，但在密集图像预测中，保持高空间分辨率也很重要，因此存在更多的网络级别变化[9,56,55]。
  
  在用于密集图像预测的各种网络架构中，我们注意到两个一致的原则：
  - 下一层的空间分辨率要么是两倍大，要么是两倍小，要么保持不变。
  - 最小的空间分辨率是下采样32倍。
  遵循这些常规做法，我们提出以下网络级搜索空间。网络的开头是一个双层“枝干”(stem)结构，每个枝干都将空间分辨率降低2倍。之后，总共有L层具有未知空间分辨率的单元，分辨率的最大值是被下采样4倍，最小值是被下采样32倍。由于每层空间分辨率可能至多为2倍不同，因此枝干后的第一层只能被下采样4倍或8倍。我们在图1中说明了我们的网络级搜索空间。我们的目标是在这个L层网格中找到一条好的路径。
  
  在图2中，我们展示了我们的搜索空间足以覆盖许多流行的设计。在未来，我们计划进一步放宽这个搜索空间以包括U-net架构[63,45,70]，其中层 $之前的一个层接收输入。我们重申，除了单元级架构之外，我们的工作还会搜索网络级架构。因此，我们的搜索空间比以前的作品更具挑战性和通用性。$
  
  我们首先介绍与上述分层架构搜索完全匹配的连续松弛的（指多数个）离散架构。然后，我们讨论如何进行架构搜索优化，以及如何在搜索终止后解码一个离散架构。
  4.1连续松弛的架构
  
   4.1.1单元架构
  
  我们复用了[49]中描述的连续松弛。每一个块的输出 $^sH^l = \beta^l_{\frac{s}{2} \to s}Cell(^\frac{s}{2}H^{l-1}, ^sH^{l-2};\alpha) \\ + \beta^l_{s\to s}Cell(^sH^{l-1}, ^sH^{l-2};\alpha) \\ + \beta^l_{2s\to s}Cell(^{2s}H^{l-1}, ^sH^{l-2};\alpha) \tag{6}$
  
  如图1所示，孔洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块被添加到第L层的每个空间分辨率上（相应地调整孔洞率）。它们的输出会双线性上采样到原始分辨率，然后求和以产生预测。
  
  4.2优化
  
  引入这种连续松弛的优点是控制不同隐藏状态之间的连接强度的标量现在是可微分计算图的一部分 。因此，它们可以通过梯度下降方法得到有效的优化。我们采用[49]中的一阶近似，并将训练集分为两个不相交的集合trainA和trainB。优化在以下二者之间交替进行：
  
  在这里，我们报告我们的架构搜索实现细节以及搜索结果。然后，我们报告使用我们最好的架构在基准数据集上的语义分割结果。
  
  5.1架构搜索实现细节
  
  我们考虑网络中总共
  
  我们在Cityscapes数据集上进行用于图像语义分割的架构搜索。更具体地说，我们使用 train_fine 集中一半分辨率(512×1024)的图像进行随机图像裁剪，得到321×321图像。我们随机选择 train_fine 中一半的图像当做 trainA ，另一半为 trainB （参加4.2节）。
  
  在总数为40的epochs中进行架构搜索优化。由于GPU显存限制，设置batch size为2。当学习网络权重 $值的连接。我们观察到在前3/4层中有进行下采样，并在最后的1/4层中进行上采样的一般趋势。在单元级架构方面，经常使用孔洞卷积和深度可分卷积的结合，这表明已经学习了上下文的重要性。注意，很少发现孔洞卷积在用于图像分类的单元中是有用的。（在NASNet- {A，B，C}、PNASNet- {1,2,3,4,5}、AmoebaNet- {A，B，C}、ENAS、DARTS中，孔洞卷积仅在AmoebaNet-B的缩小单元中使用一次）$
  
  5.2语义分割结果
  
  我们在Cityscapes[13]，PASCAL VOC 2012[15]，和ADE20K数据集上评估我们找到的最好的架构的性能。
  
  我们遵循[9,11]中的相同训练协议。简单来说，在训练期间，我们采用初始学习率为0.05的多项式学习率[50]，和大的裁剪图像（例如，Cityscapes上的769×769，以及PASCAL VOC 2012上的513×513和ADE20K的resized图像）。在训练阶段微调Batch normalization参数[32]。这些模型从头开始训练，在Cityscapes上进行1.5M迭代，在PASCAL VOC 2012上进行1.5M迭代，在ADE20K上进行4M迭代。
  
  多项式学习率：
  
  我们采用类似于DeepLabv3 +的简单编码器 - 解码器结构[11]。具体来说，我们的编码器由我们发现的最佳网络架构与ASPP模块[8,9]组成，我们的解码器与DeepLabv3 +中的解码器相同，后者通过利用具有下采样率4的低级特征来恢复边界信息。此外，我们重新设计了具有三个3×3卷积的“枝干”结构（在第一和第三卷积中步长为2）。前两个卷积有64个滤波器，而第三个卷积有128个滤波器。这种“枝干”已在[87,77]中证明对分割有效。
  
  5.2.1Cityscapes
  
  Cityscapes[13]包含5000张高质量像素级标注的1024×2048图片（2975,500,和1525张分别用于训练集，验证集和测试集），以及大约20000张粗略标注的训练图片。遵循[13]中的评估标准，排除考虑空标签，剩下的19个语义标签用来进行评估。
  
  在表2，我们报告了在Cityscapes验证集上的结果。与MobileNets[29,65]类似，我们通过改变filter multiplier $来改变模型容量(capacity)。如表中所示，更高的模型容量导致更好的性能，代价是速度更慢（由更大的Multi-Adds表示）。在表3，我们表明，当采用我们的轻量级模型变体Auto-DeepLab-S时，将训练迭代次数从500K增加到1.5M迭代可将性能提高2.8％。此外，采用Scheduled Drop Path[40,92]进一步提高了1.74％的性能，在Cityscapes验证集达到79.74％。然后我们在表4中报告测试集结果。在没有任何预训练的情况下，我们的最佳模型（Auto-DeepLab-L）明显优于FRNN-B [60] 8.6％和GridNet [17] 10.9％。使用额外的粗略标注进行训练，没有在ImageNet [64]预先训练的情况下，我们的模型Auto-DeepLab-L实现了82.1％的测试集性能，优于PSPNet [87]和Mapillary [4]，并获得与DeepLabv3 + [11]相同的性能，同时比它减少了55.2％的Mutli-Adds计算。值得注意的是，我们的轻量级变体Auto-DeepLab-S在测试集上达到80.9％，与PSPNet相当，而仅使用10.15M参数和333.25B Multi-Adds。$
  
  5.2.2 PASCAL VOC 2012
  
  PASCAL VOC 2012 [15]包含20个前景对象类和一个背景类。我们使用[23]提供的额外标注来扩充原始数据集，从而生成10582( train_aug )张训练图像。
  
  在表5，我们报告测试集的结果。我们的最佳模型Auto-DeepLab-L，单尺度推理明显优于[19] 20.36％。此外，对于我们所有的模型变体，采用多尺度推理可将性能提高约1％。在COCO [46]上进一步预训练我们的模型进行4M次迭代可以显着提高性能。
  
  最后，我们在表6中报告模型变体经过COCO预训练后在PASCAL VOC 2012测试集的结果。如表中所示，我们的最佳模型在测试集上的性能达到85.6％，优于RefineNet [44]和PSPNet [87]。我们的模型比表现优异的以Xception-65作为网络骨干的DeepLabv3 + [11]落后2.2％。我们认为PASCAL VOC 2012数据集太小，无法从头开始训练模型，在这种情况下，在ImageNet上进行预训练仍然是有益的。
  
  5.2.3 ADE20K
  
  ADE20K [89]拥有150个语义类别和高质量标注的20000张训练图像和2000张验证图像。在我们的实验中，图像都被调整大小，以便在训练期间长边是513。
  
  在表7中，我们报告验证集结果。我们的模型优于一些最先进的模型，包括RefineNet [44]，UPerNet [82]和PSPNet（ResNet-152）[87]。然而，在没有任何ImageNet [64]预训练的情况下，我们的性能落后于 [11]的最新工作。
  
  在本文中，我们首次尝试将神经网络搜索技术从图像分类扩展到密集图像预测问题。我们承认空间分辨率变化的重要性，不固定在单元级上，将网络级整合到搜索空间中来体现架构变化。我们还开发了一种可微分的公式，它允许我们在两级分层搜索空间中实现高效（比DPC [6]快大约1000倍）的架构搜索。搜索的结果Auto-DeepLab是通过从头开始在基准语义数据集进行训练评估得来的。在Cityscapes上，Auto-DeepLab明显优于之前的最新技术8.6％，并且在利用粗略注释时与经过ImageNet预训练的顶级模型相当。在PASCAL VOC 2012和ADE20K上，Auto-DeepLab也优于多个经过ImageNet预训练的最先进模型。
  
  未来的工作有很多可能的方向。在目前的框架内，目标检测等相关应用应该是合理的。我们还可以尝试以很小的计算开销解决不同层的单元架构 $参考文章：https://mp.weixin.qq.com/s/xbkFUfJbaw_h_bCZj3pdAQ 斯坦福大学李飞飞组的研究者提出了 Auto - Deep Lab ，其在图像语义分割问题上超越了很多业内最佳模型，甚至可以在未经过预训练的情况下达到预训练模型的表现。论文主要有如下4个方面的贡献：现有的（传统的） CNNs 由于有全连接层所以必须需要固定输入图片的尺寸，比如 224 × 224。本文为传统的网络结构增加了一个池化策略，即空间金字塔池化，spatial pyramid pooling，来突破全连接层对整个网络输入图像的约束。关注上方“深度学习技术前沿”，选择“星标公众号”，技术干货，第一时间送达！【导读】今天给大家整理了CVPR2020录用的几篇神经网络架构搜索方面的论文，神经网络架构搜索又称为 Neural ... 如上图b所示，该论文提出一种利用画布的方式将空间信息考虑在内的图像检索方式。这种检索方式属于多模态的图像检索，即在检索中，queries和database属于不同的模态。在此前的图像检索领域中，大多是对语义相近或者视觉内容相近的图像进行检索，相应的特征也往往是为了图像的语义或者视觉内容而提取的。但是为了实现空间语义特征的图像检索，仅仅只有语义特征或者视觉特征是不可能实现的，因此需要一种特殊... 图像分割，和图像分类、图像检测可以称为是深度学习视觉领域的三个基础研究课题，图像分割的经典深度学习算法有FCN、Mask R-CNN、 Deep Lab 等。2019年，谷歌和斯坦福大学合作，推出了 Auto - Deep Lab ，将NAS用于图像分割的领域里，改进 Deep Lab 的算法。 Auto - Deep Lab 的论文全名是 Auto - Deep Lab : Hier ac hi ca l Neural Architecture Search for Sem ant ic Image Segment ion 。在设计上，借鉴了DARTS论文的方自动网络搜索多数神经网络结构都是基于一些成熟的backbone，如ResNet, MobileNet，稍作改进构建而成来完成不同任务。正因如此，深度神经网络总被诟病为black-box，因为hyparameter是基于实验求得而并非通过严谨的数学推导。所以，很多DNN研究人员将大量时间花在修改模型和实验“调参”上面，而忽略novelty本身。许多教授戏称这种现象为“graduate student descent”。近两年，学术界兴起了“自动网络搜索”取代人工设计网络结构。2016年，Google Br 前言：本文将介绍如何基于ProxylessNAS搜索 sem ant ic segmentat ion 模型，最终搜索得到的模型结构可在CPU上达到36 fps的测试结果，展示自动网络搜索（NAS）在语义分割上的应用。随着自动网络搜索（ Neural Architecture Search ）技术的问世，深度学习已慢慢发展到自动化设计网络结构以及超参数配置的阶段。尤其在AI落地的背景下，许多模型需要部署在移动端... 本文总结了google的 deep lab 系列其中 deep lab v3+处于state-of-the-art，最近 auto - deep lab 问世，其使用最新的神经架构搜索技术，简化搭建网络结构步骤和减少训练网络的用时。语义分割的机器学习存在如下问题: ①CNN 语义分割引入了多孔卷积、空间金字塔池化( Atrous Spatial Pyramid Pooling，ASPP) 结构带来更多超参数( 如图 1 所示) ; 从像素级标注图像上计算损失，样本不均衡、误标准的问题均比 CNN 图像分类更突出，导致机器学习更难收敛，对 HPO 有更高要求。 ② 受益于具有 1 000 类对象、1 500 万张图像的大型分类数据集 ImagNet，图像分类任务中可将 CNN 作为特征提取器应用至新任务中［14］。上面的t hi s work表示的就是实例分割（instance segmentat ion ）. 要理清这几个概念，需要明白图像分割中的t hi ngs 和 stuff的区别。图像中内容可以按照有没有固定形状分成t hi ngs和stuff.其中人车等有固定形状的物体属... 废话不多说，下面正式开始主要谈谈这篇文章的重点和创新之处。文章还是延续之前 Deep Lab 系列的风格框架，采用atrous convolut ion 在保证卷积特征分辨率不变的基础上实现感受野的指数级扩大（语义分割任务的challenge之一）。本文的关注点在于：如何更好的解决multi-s ca le问题，即分割目标具有不同的大小（语义分割任务的chal 1 FCN 相对CNN的优点 1) 2014年，加州大学伯克利分校的Long等人提出的完全卷积网络(Fully Convolut ion al Networks)，推广了原有的CNN结构，在不带有全连接层的情况下能进行密集预测。这种结构的提出使得分割图谱可以生成任意大小的图像，且与图像块分类方法相比，也提高了处理速度。在后来，几乎所有关于语义分割的最新研究都采用了这种结构。【导语】本文基于动手深度学习项目讲解了FCN进行自然图像语义分割的流程，并对U-Net和 Deep lab 网络进行了实验，在Github和谷歌网盘上开源了代码和预训练模型，训练和预测的脚本已经...$
  
  5.实验结果