【2023年3月14日】论文分享
CVPR2023论文,类别有动作识别、人体姿态估计、手部重建、图像分割、目标检测、视频摘要、人员重识别、物体重识别、人脸修复等。
【2023年3月8日】论文分享
▌TriDet: Temporal Action Detection with Relative Boundary Modeling
论文作者:Dingfeng Shi,Yujie Zhong,Qiong Cao,Lin Ma,Jia Li,Dacheng Tao
论文链接: http:// arxiv.org/abs/2303.0734 7v1
项目链接: https:// github.com/sssste/TriDe t
1)方向:计算机视觉
2)应用:视频动作检测
3)背景:现有的视频动作检测方法由于视频中动作边界的模糊性,往往会出现不精确的边界预测问题。
4)方法:本文提出一种名为TriDet的单阶段框架,用于解决视频动作检测中的边界预测问题。该框架包括Trident-head和Scalable-Granularity Perception(SGP)层。Trident-head通过估计边界周围的相对概率分布来建模动作边界,从而缓解了边界预测的问题。SGP层则用于缓解视频特征中自我注意力产生的排名损失问题,并在不同时间粒度上聚合信息。
5)结果:TriDet在三个具有挑战性的基准测试中(THUMOS14、HACS和EPIC-KITCHEN 100)均取得了最先进的性能,而且计算成本更低。例如,在THUMOS14上,TriDet的平均mAP为69.3%,比之前最好的方法高出2.5%,但仅具有74.6%的延迟。TriDet的代码已经在 https:// github.com/sssste/TriDe t 上发布。
▌PoseExaminer: Automated Testing of Out-of-Distribution Robustness in Human Pose and Shape Estimation
论文作者:Qihao Liu,Adam Kortylewski,Alan Yuille
论文链接: http:// arxiv.org/abs/2303.0733 7v1
1)方向:人体姿态和形状估计
2)应用:人体姿态和形状估计的鲁棒性测试和改进
3)背景:当前的人体姿态和形状估计方法在相似的场景下表现出色,但在真实世界的应用中,观测数据与训练数据存在显著差异,这会导致模型失效。因此,测试和改进人体姿态和形状估计方法的鲁棒性非常重要。
4)方法:开发一个模拟器,可以通过可解释的参数对人体姿态图像进行微调,以探索人体姿态图像的参数空间。引入了一种名为PoseExaminer的基于学习的测试方法,通过搜索人体姿态图像的参数空间来自动诊断HPS算法的失败模式。使用多智能体强化学习系统来探索高维参数空间。
5)结果:PoseExaminer发现了当前最先进模型中的多种限制,这些限制在真实世界的场景中非常重要,但被当前基准测试所忽略。例如,它发现了大量真实人体姿态的区域无法被正确预测,以及对身材瘦削和肥胖的人的性能降低。此外,通过利用PoseExaminer发现的失败模式对HPS方法进行微调,可以显著提高它们在标准基准测试上的鲁棒性和性能。该代码可用于研究目的。
▌MP-Former: Mask-Piloted Transformer for Image Segmentation
论文作者:Hao Zhang,Feng Li,Huaizhe Xu,Shijia Huang,Shilong Liu,Lionel M. Ni,Lei Zhang
论文链接: http:// arxiv.org/abs/2303.0733 6v1
项目链接: https:// github.com/IDEA-Researc h/MP-Former
1)方向:计算机视觉
2)应用:图像分割
3)背景:Mask2Former在图像分割中的掩膜预测存在不一致性,导致优化目标不一致和解码器查询的利用率低。
4)方法:提出一种掩膜引导的训练方法,将噪声的真实掩膜输入到掩膜注意力中,并训练模型重构原始掩膜。与掩膜注意力中使用的预测掩膜相比,真实掩膜作为引导,有效减轻了Mask2Former中不准确掩膜预测的负面影响。
5)结果:在三个图像分割任务(实例、全景和语义)中,该方法在ResNet-50骨干网络上分别取得了+2.3 AP和+1.6 mIoU的显著性能提升。此外,该方法在ADE20K数据集上使用ResNet-50和Swin-L骨干网络训练时,训练速度显著提高,比Mask2Former少使用一半的训练轮数。此外,该方法在训练期间只引入少量计算,在推理期间不需要额外计算。
▌Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
论文作者:Feng Li,Ailing Zeng,Shilong Liu,Hao Zhang,Hongyang Li,Lei Zhang,Lionel M. Ni
论文链接: http:// arxiv.org/abs/2303.0733 5v1
项目链接: https:// github.com/IDEA-Researc h/Lite-DETR
1)方向:计算机视觉
2)应用:目标检测
3)背景:DETR模型在目标检测领域取得了显著的性能,但是多尺度特征融合导致的token数量过多,尤其是低级特征的数量,使得DETR模型在实际应用中计算效率低下。
4)方法:提出一种名为Lite DETR的目标检测框架,可以有效地减少检测头的GFLOPs,同时保持99%的原始性能。具体来说,设计了一种高效的编码器块,以交替的方式更新高级特征和低级特征,并开发一种关键点感知的可变形注意力机制,以更好地融合跨尺度特征。
5)结果:全面的实验验证了所提出的Lite DETR的有效性和高效性,并且高效的编码器策略可以很好地推广到现有的DETR模型中。代码将在 https:// github.com/IDEA-Researc h/Lite-DETR 。
▌Align and Attend: Multimodal Summarization with Dual Contrastive Losses
论文作者:Bo He,Jun Wang,Jielin Qiu,Trung Bui,Abhinav Shrivastava,Zhaowen Wang
论文链接: http:// arxiv.org/abs/2303.0728 4v1
项目链接: https:// boheumd.github.io/A2Sum m/
1)方向:多模态摘要
2)应用:视频摘要、新闻摘要
3)背景:多模态摘要的目标是从不同的模态中提取最重要的信息以形成摘要。与单模态摘要不同,多模态摘要任务明确利用跨模态信息来帮助生成更可靠和高质量的摘要。然而,现有方法未能利用不同模态之间的时间对应关系,并忽略了不同样本之间的内在相关性。
4)方法:为了解决这个问题,作者提出了Align and Attend Multimodal Summarization (A2Summ),这是一个统一的多模态基于Transformer的模型,可以有效地对齐和关注多模态输入。此外,作者提出了两种新颖的对比损失来建模样本间和样本内的相关性。
5)结果:在两个标准视频摘要数据集(TVSum和SumMe)和两个多模态摘要数据集(Daily Mail和CNN)上进行了大量实验,证明了A2Summ的优越性,在所有数据集上都取得了最先进的性能。此外,作者还收集了一个大规模的多模态摘要数据集BLiSS,其中包含带注释摘要的直播视频和转录文本。作者的代码和数据集公开可用。
▌Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos
论文作者:Yubin Hu,Yuze He,Yanghao Li,Jisheng Li,Yuxing Han,Jiangtao Wen,Yong-Jin Liu
论文链接: http:// arxiv.org/abs/2303.0722 4v1
项目链接: https:// github.com/THU-LYJ-Lab/ AR-Seg
1)方向:计算机视觉
2)应用:视频语义分割
3)背景:由于高帧率视频的每帧预测都需要大量计算,因此视频语义分割是一项计算成本高昂的任务。先前的工作提出了紧凑模型或自适应网络策略以实现高效的视频语义分割,但它们没有考虑影响计算成本的关键因素:输入分辨率。
4)方法:本文提出一种名为AR-Seg的改变分辨率框架,用于压缩视频以实现高效的视频语义分割。AR-Seg旨在通过对非关键帧使用低分辨率来降低计算成本。为了防止降采样引起的性能下降,本文设计了一个名为CReFF的交叉分辨率特征融合模块,并使用一种新颖的特征相似性训练(FST)策略进行监督。具体而言,CReFF首先利用存储在压缩视频中的运动矢量将高分辨率关键帧的特征变形为低分辨率的非关键帧,以实现更好的空间对齐,然后使用局部注意机制有选择地聚合变形后的特征。此外,所提出的FST通过显式相似性损失和来自共享解码层的隐式约束来监督聚合特征与高分辨率特征。
5)结果:在CamVid和Cityscapes上的广泛实验表明,AR-Seg实现了最先进的性能,并且与不同的分割骨干网络兼容。在CamVid上,AR-Seg在保持高分割精度的同时,使用PSPNet18骨干网络节省了67%的计算成本(以GFLOPs为单位)。代码: https:// github.com/THU-LYJ-Lab/ AR-Seg 。
▌Modality-Agnostic Debiasing for Single Domain Generalization
论文作者:Sanqing Qu,Yingwei Pan,Guang Chen,Ting Yao,Changjun Jiang,Tao Mei
论文链接: http:// arxiv.org/abs/2303.0712 3v1
1)方向:深度神经网络(DNNs)单域泛化
2)应用:多模态场景下的单域泛化
3)背景:DNNs在单域泛化方面的泛化能力较差,现有的单域泛化技术通常采用各种数据增强算法,并重新塑造多源域泛化方法来学习域通用(语义)特征。然而,这些方法通常是模态特定的,因此仅适用于单个模态(例如图像)。
4)方法:提出了一种多模态的模态不可知去偏(MAD)框架,用于单域泛化,可以适用于不同的模态。MAD引入了一种新颖的双分支分类器:一个偏置分支鼓励分类器识别特定于域的(表面)特征,一个通用分支基于偏置分支的知识捕获域通用特征。MAD可插入大多数单域泛化模型中。
5)结果:在包括1D文本、2D图像、3D点云和2D图像的语义分割在内的各种单域泛化场景中验证了MAD的优越性。更为显著的是,在3D点云识别和2D图像语义分割方面,MAD在准确性和mIOU方面分别提高了2.82%和1.5%的DSU。
▌Upcycling Models under Domain and Category Shift
论文作者:Sanqing Qu,Tianpei Zou,Florian Roehrbein,Cewu Lu,Guang Chen,Dacheng Tao,Changjun Jiang
论文链接: http:// arxiv.org/abs/2303.0711 0v1
项目链接: https:// github.com/ispc-lab/GLC
1)方向:深度神经网络(DNNs)的域自适应
2)应用:解决DNNs在领域转移和类别转移中表现不佳的问题
3)背景:现有的无源域自适应(SFDA)方法只适用于标签空间相同的情况,因此只适用于基本的封闭集设置。本文提出了一种新的方法,即无源通用域自适应(SF-UniDA),旨在识别在领域和类别转移下的“已知”数据样本,并拒绝那些“未知”的数据样本(不在源类中),仅使用标准预训练源模型的知识。
4)方法:本文提出了一种全局和局部聚类学习技术(GLC),其中设计了一种新颖的自适应一对多全局聚类算法,以实现对不同目标类别的区分,并引入了局部k-NN聚类策略以减轻负面转移。
5)结果:在多个基准测试中,包括部分集、开放集和开放部分集DA等不同类别转移场景下,本文的GLC方法表现出优越性。在最具挑战性的开放部分集DA场景中,GLC在VisDA基准测试中的表现比UMAD高出14.8%。代码可在 https:// github.com/ispc-lab/GLC 上获得。
▌Prototype-based Embedding Network for Scene Graph Generation
论文作者:Chaofan Zheng,Xinyu Lyu,Lianli Gao,Bo Dai,Jingkuan Song
论文链接: http:// arxiv.org/abs/2303.0709 6v1
1)方向:计算机视觉
2)应用:场景图生成
3)背景:当前的场景图生成方法在预测实体对之间的关系时,由于主谓组合的视觉外观多样性,每个谓词类别内部存在大量的类内变化,例如“男人吃披萨,长颈鹿吃叶子”,以及不同类别之间存在严重的类间相似性,例如“男人拿盘子,男人吃披萨”,这些挑战阻碍了当前的场景图生成方法获取可靠的特征以进行可靠的关系预测。
4)方法:本文提出了基于原型的嵌入网络(PE-Net),该网络使用原型对齐的紧凑和独特的表示来建模实体/谓词,并在语义空间中建立实体对和谓词之间的匹配,以进行关系识别。此外,引入了原型引导学习(PL)来帮助PE-Net有效地学习实体/谓词匹配,并设计了原型正则化(PR)来缓解由于谓词语义重叠而导致的模糊实体/谓词匹配。
5)结果:大量实验证明,本文方法在场景图生成方面具有优越的关系识别能力,在Visual Genome和Open Images数据集上均取得了新的最佳性能。
▌MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID
论文作者:Jianyang Gu,Kai Wang,Hao Luo,Chen Chen,Wei Jiang,Yuqiang Fang,Shanghang Zhang,Yang You,Jian Zhao
论文链接: http:// arxiv.org/abs/2303.0706 5v1
项目链接: https:// github.com/vimar-gu/MSI Net
1)方向:神经架构搜索(NAS)
2)应用:目标重识别(ReID)
3)背景:为了提高重识别的检索性能,任务特定的架构对于社会越来越具有吸引力。以前的工作探索了NAS ReID的新优化目标和搜索空间,但它们忽略了图像分类和ReID之间训练方案的差异。
4)方法:本文提出了一种新的双胞胎对比机制(TCM),为ReID架构搜索提供更合适的监督。TCM减少了训练和验证数据之间的类别重叠,并协助NAS模拟真实的ReID训练方案。然后,设计一个多尺度交互(MSI)搜索空间,以搜索多尺度特征之间的合理交互操作。此外,引入一个空间对齐模块(SAM),以进一步增强面对来自不同来源的图像的注意力一致性。在提出的NAS方案下,自动搜索了一个特定的架构,命名为MSINet。
5)结果:广泛的实验表明,所提出方法在域内和跨域场景下均优于最先进的ReID方法。源代码可在 https:// github.com/vimar-gu/MSI Net 中获得。
▌Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling
论文作者:Yongshuai Huang,Ning Lu,Dapeng Chen,Yibo Li,Zecheng Xie,Shenggao Zhu,Liangcai Gao,Wei Peng
论文链接: http:// arxiv.org/abs/2303.0694 9v1
1)方向:计算机视觉
2)应用:表格结构识别
3)背景:表格结构识别旨在将非结构化表格图像的逻辑和物理结构提取出来,转换成机器可读的格式。然而,以往的方法在预测物理结构(单元格的边界框)时存在问题,因为逻辑表示缺乏局部视觉信息。
4)方法:提出了一种名为VAST的端到端顺序建模框架,用于表格结构识别。该框架包含一个新颖的坐标序列解码器,由逻辑结构解码器中的非空单元格表示触发。在坐标序列解码器中,将边界框坐标建模为语言序列,依次解码左、上、右和下坐标,以利用坐标之间的依赖关系。此外,提出了一种辅助视觉对齐损失,以强制逻辑表示包含更多的局部视觉细节,有助于产生更好的单元格边界框。
5)结果:大量实验证明,所提出的方法在逻辑和物理结构识别方面均可达到最先进的结果。消融研究还验证了所提出的坐标序列解码器和视觉对齐损失是我们方法成功的关键。
▌Twin Contrastive Learning with Noisy Labels
论文作者:Zhizhong Huang,Junping Zhang,Hongming Shan
论文链接: http:// arxiv.org/abs/2303.0693 0v1
项目链接: https:// github.com/Hzzone/TCL
1)方向:机器学习
2)应用:分类
3)背景:学习嘈杂数据是一个具有挑战性的任务,会显著降低模型性能。
4)方法:该论文提出了TCL,一种新颖的双对比学习模型,用于学习鲁棒表示并处理分类的嘈杂标签。具体而言,通过将监督模型预测注入到GMM中,构建了一个高斯混合模型(GMM)来覆盖表示,以将GMM中的无标签潜在变量与标签嘈杂注释联系起来。然后,TCL通过另一个考虑数据分布的两组分GMM将具有错误标签的示例检测为分布外示例。进一步提出了交叉监督和熵正则化损失,通过混合和对比学习,从模型预测中引导真实目标来处理嘈杂标签。因此,TCL可以通过混合和对比学习学习与估计标签对齐的判别表示。在几个标准基准和真实世界数据集上进行的广泛实验结果表明,TCL具有卓越的性能。特别是,在90%嘈杂标签的情况下,TCL在CIFAR-10上实现了7.5%的改进-这是一个极其嘈杂的场景。
5)结果:TCL模型在处理嘈杂标签的分类任务中表现出卓越的性能,特别是在极其嘈杂的情况下,也能取得不错的效果。
▌NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer
论文作者:Kun Zhou,Wenbo Li,Yi Wang,Tao Hu,Nianjuan Jiang,Xiaoguang Han,Jiangbo Lu
论文链接: http:// arxiv.org/abs/2303.0691 9v1
项目链接: https:// redrock303.github.io/ne rflix/
1)方向:计算机视觉
2)应用:新视角合成
3)背景:目前Neural radiance fields (NeRF)在新视角合成方面取得了很大的成功,但是在现实场景中,由于潜在的不完美的校准信息和场景表示不准确,从源图像中恢复高质量的细节仍然具有挑战性。即使使用高质量的训练帧,由NeRF模型产生的合成新视图仍然存在明显的渲染伪影,如噪点、模糊等。
4)方法:提出了NeRFLiX,一种通用的NeRF-agnostic修复器范例,通过学习一个退化驱动的视点间混合器来提高NeRF-based方法的合成质量。具体来说,设计了一种NeRF-style的退化建模方法,并构建了大规模的训练数据,使得现有的深度神经网络能够有效地去除NeRF本地的渲染伪影。此外,除了去除退化,还提出了一种视点间聚合框架,能够融合高度相关的高质量训练图像,将最先进的NeRF模型的性能推向全新的水平,并产生高度逼真的合成视图。
5)结果:NeRFLiX能够有效地去除NeRF本地的渲染伪影,提高了NeRF-based方法的合成质量,产生了高度逼真的合成视图。
▌DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration
论文作者:Zhixin Wang,Xiaoyun Zhang,Ziying Zhang,Huangjie Zheng,Mingyuan Zhou,Ya Zhang,Yanfeng Wang
论文链接: http:// arxiv.org/abs/2303.0688 5v1
1)方向:图像处理
2)应用:盲目面部修复
3)背景:盲目面部修复通常使用预定义的降质模型合成降质的低质量数据进行训练,但在现实世界中可能会出现更复杂的情况。假设的降质模型与实际情况之间的差距会影响修复性能,输出中经常出现伪影。然而,为了覆盖现实世界的情况,包括每种类型的退化在内的训练数据是昂贵且不可行的。
4)方法:为了解决这个问题,提出了基于扩散的鲁棒性降质去除器(DR2),首先将降质图像转换为粗略但不受降质影响的预测,然后使用增强模块将粗略预测恢复为高质量图像。通过利用表现良好的去噪扩散概率模型,DR2将输入图像扩散到噪声状态,各种类型的降质变成高斯噪声,然后通过迭代去噪步骤捕获语义信息。因此,DR2对常见的降质(如模糊、调整大小、噪声和压缩)具有鲁棒性,并且与不同的增强模块设计兼容。
5)结果:在各种设置下的实验表明该框架在严重降质的合成和现实世界数据集上优于现有方法。
▌SCPNet: Semantic Scene Completion on Point Cloud
论文作者:Zhaoyang Xia,Youquan Liu,Xin Li,Xinge Zhu,Yuexin Ma,Yikang Li,Yuenan Hou,Yu Qiao
论文链接: http:// arxiv.org/abs/2303.0688 4v1
1)方向:计算机视觉
2)应用:语义场景补全
3)背景:由于输入数据稀疏不完整,存在大量不同尺度的对象以及移动对象的固有标签噪声,因此训练用于语义场景补全的深度模型具有挑战性。
4)方法:提出了三种解决方案:①重新设计补全子网络,使用多路径块(MPBs)聚合多尺度特征,避免了有损下采样操作;②从多帧模型中提取丰富的知识,使用称为Dense-to-Sparse Knowledge Distillation(DSKD)的新型知识蒸馏目标,将密集的、基于关系的语义知识从多帧教师传递到单帧学生,显著提高了单帧模型的表示学习能力;③补全标签矫正,提出了一种简单而有效的标签矫正策略,使用现成的全景分割标签来消除补全标签中动态对象的痕迹,极大地提高了深度模型的性能,特别是对于那些移动对象。
5)结果:在两个公共的语义场景补全基准测试中(SemanticKITTI和SemanticPOSS),进行了大量实验。SCPNet在SemanticKITTI语义场景补全挑战赛中排名第一,比竞争对手S3CNet高出7.2 mIoU。SCPNet还在SemanticPOSS数据集上优于以前的补全算法。此外,我们的方法在SemanticKITTI语义分割任务上也取得了竞争性的结果,表明在场景补全中学习的知识对分割任务有益。
▌Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection
论文作者:Bo Zhang,Jiakang Yuan,Botian Shi,Tao Chen,Yikang Li,Yu Qiao
论文链接: http:// arxiv.org/abs/2303.0688 0v1
项目链接: https:// github.com/PJLab-ADG/3D Trans
1)方向:3D目标检测
2)应用:多数据集统一训练3D检测器
3)背景:当前的3D目标检测模型通常遵循单个数据集的训练和测试范式,但是当它们直接部署在另一个数据集中时,往往会面临严重的检测精度下降。本文研究了从多个数据集中训练统一的3D检测器的任务。
4)方法:提出了Uni3D方法,该方法利用简单的数据级校正操作和设计的语义级耦合和重组模块,分别缓解了不可避免的数据级和分类级别的差异。该方法简单易用,可以与许多3D目标检测基线(如PV-RCNN和Voxel-RCNN)相结合,使它们能够有效地从多个现成的3D数据集中学习,以获得更具有区分性和可推广性的表示。在多个数据集合并设置下进行了实验,包括Waymo-nuScenes、nuScenes-KITTI、Waymo-KITTI和Waymo-nuScenes-KITTI合并。实验结果表明,Uni3D超过了单个数据集训练的一系列单独检测器,与选择的基线检测器相比,参数增加了1.04倍。
5)结果:Uni3D方法可以从多个数据集中学习,获得更具有区分性和可推广性的表示,从而提高3D目标检测的性能。该方法在多个数据集合并设置下进行的实验结果表明,Uni3D超过了单个数据集训练的一系列单独检测器,与选择的基线检测器相比,参数增加了1.04倍。这项工作将推动感知性能的极限,有望激发3D泛化研究的兴趣。
▌Progressive Open Space Expansion for Open-Set Model Attribution
论文作者:Tianyun Yang,Danding Wang,Fan Tang,Xinying Zhao,Juan Cao,Sheng Tang
论文链接: http:// arxiv.org/abs/2303.0687 7v1
1)方向:计算机视觉
2)应用:模型归因和恶意内容监管
3)背景:随着生成技术的进步,知识产权保护和恶意内容监管的问题也随之出现。目前,通过将合成图像归因于一组潜在的源模型来管理合成图像。然而,封闭集分类设置限制了在处理由任意模型生成的内容时在实际场景中的应用。
4)方法:本研究提出了一种渐进式开放空间扩展(POSE)解决方案,用于同时将图像归因于已知模型并识别来自未知模型的图像。该方法通过一组轻量级增强模型逐步模拟开放集样本,这些样本与封闭集样本具有相同的语义,但嵌入了不同的不可感知的痕迹。在多个真实场景下构建了一个OSMA基准数据集,包括使用不同随机种子、架构和已知数据集训练的未知模型。
5)结果:在数据集上的广泛实验表明,POSE优于现有的模型归因方法和现成的OSR方法。与现有的开放集识别(OSR)任务专注于语义新颖性相比,OSMA更具挑战性,因为已知和未知模型之间的区别可能仅存在于视觉上不可感知的痕迹中。
▌Interventional Bag Multi-Instance Learning On Whole-Slide Pathological Images
论文作者:Tiancheng Lin,Zhimiao Yu,Hongyu Hu,Yi Xu,Chang Wen Chen
论文链接: http:// arxiv.org/abs/2303.0687 3v1
项目链接: https:// github.com/HHHedo/IBMIL
1)方向:多实例学习(MIL)
2)应用:全幻灯片病理图像(WSIs)分类
3)背景:MIL是一种有效的范式,用于处理吉格像素分辨率和幻灯片级标签的WSIs分类。然而,现有的MIL方法主要集中在改进特征提取器和聚合器上,这些方法的一个缺陷是袋上下文先验可能会使模型捕捉到袋和标签之间的虚假相关性。这种缺陷是一个混淆因素,限制了现有MIL方法的性能。
4)方法:本文提出了一种新颖的方案,干预袋多实例学习(IBMIL),以实现去混淆的袋级预测。与传统的基于似然的策略不同,所提出的方案基于反向门控调整来实现干预式训练,因此能够抑制袋上下文先验引起的偏差。需要注意的是,IBMIL的原则与现有的袋MIL方法是正交的。因此,IBMIL能够为现有方案带来一致的性能提升,实现新的最先进性能。代码可在 https:// github.com/HHHedo/IBMIL 上获得。
5)结果:IBMIL方法能够有效地解决现有MIL方法的混淆问题,提高WSIs分类的性能,实现了新的最先进性能。
▌Three Guidelines You Should Know for Universally Slimmable Self-Supervised Learning
论文作者:Yun-Hao Cao,Peiqin Sun,Shuchang Zhou
论文链接: http:// arxiv.org/abs/2303.0687 0v1
项目链接: https:// github.com/megvii-resea rch/US3L-CVPR2023
1)方向:自监督学习
2)应用:在不同设备上部署自监督模型时实现更好的准确性和效率平衡
3)背景:直接将自监督学习(SSL)应用于普遍可缩放网络时,训练过程经常会崩溃,因此需要一种新的方法来解决这个问题。
4)方法:提出了普遍可缩放自监督学习(US3L)方法,通过三个指导方针来确保从统一的梯度角度实现时间上的一致性,同时提出动态采样和分组正则化策略来提高训练效率和准确性。
5)结果:在卷积神经网络和视觉变换器上进行了实证验证,US3L方法仅需一次训练和一份权重副本,就能在识别、目标检测和实例分割等基准测试中优于各种最先进的方法(无论是单独训练还是不训练)。该方法的代码可在 https:// github.com/megvii-resea rch/US3L-CVPR2023 上获得。
▌Adaptive Data-Free Quantization
论文作者:Biao Qian,Yang Wang,Richang Hong,Meng Wang
论文链接: http:// arxiv.org/abs/2303.0686 9v1
1)方向:深度学习量化
2)应用:提高量化网络的泛化性能
3)背景:Data-free quantization (DFQ)是一种不需要真实数据的量化方法,通过学习全精度网络(P)生成虚假样本,以恢复量化网络(Q)的性能。然而,这种样本生成过程与Q完全独立,忽视了生成样本的知识对Q学习过程的适应性,导致泛化误差的溢出。
4)方法:提出了一种自适应数据无关量化(AdaDFQ)方法,将DFQ重新定义为两个玩家之间的零和博弈,即生成器和量化网络之间的样本适应性。在此基础上,进一步定义了不同的样本边界,通过优化边界间的间隔来生成适应性良好的样本,以解决过拟合和欠拟合问题。
5)结果:实验结果表明,AdaDFQ方法相对于现有技术具有优势,可以提高量化网络的泛化性能。该方法的代码可在https: http:// github.com/hfutqian/Ada DFQ 上获得。
▌Learning Distortion Invariant Representation for Image Restoration from A Causality Perspective
论文作者:Xin Li,Bingchen Li,Xin Jin,Cuiling Lan,Zhibo Chen
论文链接: http:// arxiv.org/abs/2303.0685 9v1
项目链接: https:// github.com/lixinustc/Ca sual-IRDIL
1)方向:深度神经网络在图像恢复中的应用
2)应用:改善深度神经网络在不同程度或类型的真实世界退化情况下的泛化能力
3)背景:深度神经网络在图像恢复中的应用已经取得了很大的进展,但是它们不能很好地泛化到具有不同程度或类型的真实世界退化情况。
4)方法:提出了一种新的训练策略,从因果关系的角度来进行图像恢复,以提高深度神经网络对未知退化情况的泛化能力。该方法称为失真不变表示学习(DIL),将每种失真类型和程度视为一个特定的混淆因素,并通过消除每种退化的有害混淆效应来学习失真不变表示。通过建立不同失真的干预模型,使用因果关系中的反向门准则来推导DIL。特别地,引入反事实失真增强来模拟虚拟失真类型和程度作为混淆因素。然后,通过基于相应的失真图像进行虚拟模型更新来实例化每种失真的干预,并从元学习的角度消除它们。
5)结果:大量实验证明了DIL在处理未知失真类型和程度时的有效性。他们的代码将在 https:// github.com/lixinustc/Ca sual-IRDIL 上提供。
▌Dynamic Neural Network for Multi-Task Learning Searching across Diverse Network Topologies
论文作者:Wonhyeok Choi,Sunghoon Im
论文链接: http:// arxiv.org/abs/2303.0685 6v1
1)方向:多任务学习(MTL)
2)应用:优化多任务学习网络结构
3)背景:多任务学习需要在一个网络中同时处理多个任务,但不同任务之间的关系和拓扑结构不同,因此需要一个能够适应不同任务的网络结构。
4)方法:提出了一种新的MTL框架,使用限制DAG中心网络和读入/读出层来构建适应不同任务的拓扑结构,同时限制搜索空间和时间。使用三阶段训练过程搜索单个优化网络,作为多任务自适应子网络。为了使网络紧凑和离散化,提出了基于流的减少算法和在训练过程中使用的挤压损失。
5)结果:在各种公共MTL数据集上评估了优化网络,并展示了其达到了最先进的性能。广泛的消融研究实验证明了我们框架中子模块和方案的有效性。
▌TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-Identification
论文作者:Haocong Rao,Chunyan Miao
论文链接: http:// arxiv.org/abs/2303.0681 9v1
项目链接: https:// github.com/Kali-Hac/Tra nSG
1)方向:人员重识别(re-ID)技术
2)应用:人员重识别
3)背景:现有的人员重识别方法通常使用原始身体关节设计骨架描述符或执行骨架序列表示学习。然而,它们通常不能同时建模不同的身体组件关系,并且很少从身体关节的细粒度表示中探索有用的语义。
4)方法:本文提出了一种基于Transformer的骨架图原型对比学习(TranSG)方法,采用结构-轨迹提示重构,以完全捕获骨架关系和有价值的空间-时间语义。具体而言,首先设计了骨架图Transformer(SGT)来同时学习骨架图中的身体和运动关系,以将关键相关节点特征聚合到图形表示中。然后,提出了图形原型对比学习(GPC)来挖掘每个身份的最典型图形特征(图形原型),并从骨架和序列级别对图形表示和不同原型之间的内在相似性进行对比,以学习有区分性的图形表示。最后,提出了图形结构-轨迹提示重构(STPR)机制,以利用图形节点的空间和时间上下文来提示骨架图重构,从而有助于捕获更有价值的模式和图形语义,用于人物再识别。
5)结果:实证评估表明,TranSG明显优于现有的最先进方法。并进一步展示了它在不同的图形建模、RGB估计骨架和无监督场景下的普适性。
▌Universal Instance Perception as Object Discovery and Retrieval
论文作者:Bin Yan,Yi Jiang,Jiannan Wu,Dong Wang,Ping Luo,Zehuan Yuan,Huchuan Lu
论文链接: http:// arxiv.org/abs/2303.0667 4v1
项目链接: https:// github.com/MasterBin-II AU/UNINEXT
1)方向:实例感知
2)应用:图像和视频中的目标检测、实例分割、指代表达理解和跟踪等任务
3)背景:实例感知任务旨在通过一些查询(如类别名称、语言表达和目标标注)找到特定的对象,但这个领域已经被分成了多个独立的子任务。本文提出了一种新一代的通用实例感知模型,称为UNINEXT,将不同的实例感知任务重新定义为统一的对象发现和检索范式,并可以通过简单地更改输入提示来灵活地感知不同类型的对象。
4)方法:UNINEXT将不同的实例感知任务统一为对象发现和检索范式,通过联合训练通用的实例级表示来利用来自不同任务和标签词汇的大量数据,从而使缺乏训练数据的任务受益。此外,该模型参数高效,可以在同时处理多个任务时节省冗余计算。
5)结果:UNINEXT在10个实例级任务的20个具有挑战性的基准测试中表现出优异的性能,包括经典的图像级任务(目标检测和实例分割)、视觉语言任务(指代表达理解和分割)和六个视频级目标跟踪任务。 UNINEXT的代码可在 https:// github.com/MasterBin-II AU/UNINEXT 上获得。
▌Iterative Geometry Encoding Volume for Stereo Matching
论文作者:Gangwei Xu,Xianqi Wang,Xiaohuan Ding,Xin Yang
论文链接: http:// arxiv.org/abs/2303.0661 5v1
项目链接: https:// github.com/gangweiX/IGE V
1)方向:计算机视觉
2)应用:立体匹配
3)背景:RAF在匹配任务中表现出很大的潜力,但是所有对之间的相关性缺乏非局部几何知识,并且在不适定区域中处理局部歧义困难。因此,本文提出了一种新的深度网络架构IGEV-Stereo,用于立体匹配。
4)方法:IGEV-Stereo建立了一个组合的几何编码体积,编码了几何和上下文信息以及局部匹配细节,并迭代地索引它以更新视差图。为了加速收敛,利用GEV回归出ConvGRUs迭代的准确起点。同时,IGEV还扩展到多视角立体匹配(MVS),即IGEV-MVS。
5)结果:在KITTI 2015上,IGEV-Stereo在所有已发布的方法中排名第一,并且是前10种方法中最快的。此外,IGEV-Stereo具有很强的跨数据集泛化能力和高推理效率。在DTU基准测试中,IGEV-MVS实现了有竞争力的准确性。代码可在 https:// github.com/gangweiX/IGE V 上获得。
▌Regularized Vector Quantization for Tokenized Image Synthesis
论文作者:Jiahui Zhang,Fangneng Zhan,Christian Theobalt,Shijian Lu
论文链接: http:// arxiv.org/abs/2303.0642 4v1
1)方向:图像量化
2)应用:统一生成建模
3)背景:将图像量化为离散表示一直是统一生成建模中的一个基本问题。现有的方法要么通过选择最佳匹配令牌的确定性方式学习离散表示,要么通过从预测分布中进行采样的随机方式学习离散表示。然而,确定性量化存在严重的码本崩溃和推理阶段不对齐的问题,而随机量化存在码本利用率低和扰动重构目标的问题。
4)方法:本文提出一种正则化向量量化框架,通过从两个方面应用正则化来有效地缓解上述问题。第一个是先验分布正则化,它衡量先验令牌分布和预测令牌分布之间的差异,以避免码本崩溃和码本利用率低。第二个是随机掩码正则化,它在量化过程中引入随机性,以在推理阶段不对齐和未扰动重构目标之间取得良好的平衡。此外,设计一种概率对比损失,它作为校准度量进一步缓解了扰动重构目标。
5)结果:广泛的实验表明,所提出的量化框架在不同的生成模型中,包括自回归模型和扩散模型中,始终优于现有的向量量化方法。
▌Semi-supervised Hand Appearance Recovery via Structure Disentanglement and Dual Adversarial Discrimination
论文作者:Zimeng Zhao,Binghui Zuo,Zhiyu Long,Yangang Wang
论文链接: http:// arxiv.org/abs/2303.0638 0v1
项目链接: https://www. yangangwang.com
1)方向:计算机视觉
2)应用:手部外观重建
3)背景:通过基于标记的MoCap收集了大量带有可靠注释的手部图像,但标记引起的降级限制了它们在手部外观重建中的应用。
4)方法:提出一种基于双重对抗鉴别(DAD)方案的手部外观恢复方法。该方法首先从降级图像中分离出裸手结构,然后使用DAD方案将外观包装到该结构中。该方法利用半监督学习范例,通过ViT的建模能力实现结构分离,通过对翻译过程和结果的双重鉴别增强翻译器。
5)结果:对多种带有标记和物体遮挡的数据集进行了全面评估,证明该框架可以从中恢复出逼真的手部外观。该方法为其他下游学习问题获取裸手外观数据提供了一种新途径。该代码将公开发布在 https://www. yangangwang.com 上。
▌CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective
论文作者:Junwen Xiong,Ganglai Wang,Peng Zhang,Wei Huang,Yufei Zha,Guangtao Zhai
论文链接: http:// arxiv.org/abs/2303.0635 7v1
1)方向:视听感知
2)应用:视频显著性预测
3)背景:通过结合音频流,视频显著性预测(VSP)可以模仿人脑的选择性注意机制。大多数VSP方法都能够利用视觉和音频模态之间的语义相关性,但忽略了由于音频-视觉内在的时间不一致性而产生的负面影响。
4)方法:本研究受到多感官信息中生物学的不一致性校正的启发,提出了一种一致性感知的音频-视觉显著性预测网络(CASP-Net),该网络全面考虑了音频-视觉语义交互和一致性感知。此外,还设计了一个双流编码器,用于优雅地关联视频帧和相应的声源,还设计了一种新的一致性感知预测编码,以迭代地改善音频和视觉表示中的一致性。为了进一步聚合多尺度的音频-视觉信息,引入了一个显著性解码器,用于生成最终的显著性地图。
5)结果:大量实验表明,所提出的CASP-Net在六个具有挑战性的音频-视觉眼动数据集上优于其他最先进的方法。
▌DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation
论文作者:Yueming Lyu,Tianwei Lin,Fu Li,Dongliang He,Jing Dong,Tieniu Tan
论文链接: http:// arxiv.org/abs/2303.0628 5v1
项目链接: https:// github.com/Yueming6568/ DeltaEdit
1)方向:图像处理
2)应用:图像编辑
3)背景:现有的条件生成模型需要昂贵的注释训练数据,而最近的基于预训练视觉语言模型的框架受到文本提示优化或推理时超参数调整的限制。
4)方法:提出了一种名为DeltaEdit的新框架,通过研究和识别一个空间,即Delta图像和文本空间,该空间具有两个图像的CLIP视觉特征差异和源和目标文本的CLIP文本嵌入差异之间的良好对齐分布。基于CLIP delta空间,DeltaEdit网络在训练阶段被设计为将CLIP视觉特征差异映射到StyleGAN的编辑方向。然后,在推理阶段,DeltaEdit从CLIP文本特征的差异中预测StyleGAN的编辑方向。这样,DeltaEdit可以在无文本的情况下进行训练。一旦训练完成,它可以很好地推广到各种文本提示进行零样本推理,无需任何额外的操作。
5)结果:DeltaEdit框架可以在无需昂贵的标注训练数据的情况下进行图像编辑,具有很好的推广性能。其代码可在 https:// github.com/Yueming6568/ DeltaEdit 上获得。