【开源】Transformer 在CV领域全面开花:新出跟踪、分割、配准等总结
本文收录 5 月 以来值得关注的 Transformer 相关开源论文,包括基于 Transformer 的自监督学习方法在 CV 任务中应用、视觉跟踪、视频预测、语义分割、图像配准,以及 1 篇针对 Transformer 风格的网络中,“attention layer”是否是必要的技术报告。
01
Self-Supervised Learning with Swin Transformers
来自清华&西安交通大学&微软亚洲研究
提出以 Vision Transformers 作为骨干架构的自监督学习方法:MoBY,是 MoCo v2 和 BYOL 的结合,经过调整,在 ImageNet-1K 的线性评估上达到了合理的高准确率。通过 300 个周期的训练,使用 DeiT-S 和 Swin-T,分别达到 72.8% 和 75.0% 的 top-1 精度。其性能略优于近期采用 DeiT 为骨干的 MoCo v3 和 DINO 的作品,但其技巧更轻便。
更值得注意是,多功能的 Swin Transformer 骨干可以在下游任务(如目标检测和语义分割)上评估所学到的表征,与最近一些建立在 ViT/DeiT 上的方法相反,由于 ViT/DeiT 没有被驯服用于这些密集的预测任务,因此只能在ImageNet-1K 上报告线性评估结果。
作者称希望该结果可以促进对为 Transformer 架构设计的自监督学习方法进行更全面的评估。
- 论文链接:https://arxiv.org/abs/2105.04553
- 项目链接:https://github.com/SwinTransformer/Transformer-SSL
标签:Transformer+自监督学习
02
TrTr: Visual Tracking with Transformer 来自东京大学
东京大学学者提出一种基于强大注意力机制的新型跟踪器网络:Transformer 编码器-解码器架构,以获得全局和丰富的上下文相互依赖关系。在新的架构中,template image(模板图像)的特征由编码器部分的自注意模块处理,可以学习到强大的上下文信息,然后将其发送到解码器部分,以计算与另一个自注意模块处理的搜索图像特征的交叉注意。