创新奇智荣获CVPR2023细粒度视觉挑战赛两项冠军
CVPR作为全球顶级计算机视觉会议,每年都吸引很多全球知名企业及研究机构参加。近日,创新奇智团队在CVPR 2023细粒度视觉分类(FGVC)赛事荣获PlantTraits和SnakeCLEF赛道两项冠军,彰显了在细粒度视觉分类领域的强大技术实力。
FGVC(Fine-Grained Visual Categorization)是CVPR主办的细粒度视觉分类workshop竞赛。本届CVPR-FGVC10研讨会由丹麦哥本哈根大学、美国加州理工学院、英国爱丁堡大学、美国麻省理工学院、英国伦敦大学学院、捷克共和国皮尔森西波西米亚大学、北京大学、Meta(Facebook)、Google等知名高校及机构联合主办。
图像分类在计算机视觉领域占据着重要地位,是最基础和应用最广泛的任务之一,特别是细粒度分类,要求在区分出基本类别的基础上,进行更精细的子类划分,如区分植物的种类、车的款式、狗的品种等。但在训练样本数据有限且类别高度相似的领域中,现有技术的表现并不尽如人意。当前,细粒度图像分类成为计算机视觉领域的一个热门研究课题,在工业界和实际生活中有着广泛的业务需求和应用场景。
PlantTraits赛题介绍及技术方案
PlantTraits 2023挑战赛由德国莱比锡大学地球系统研究遥感中心(RSC4Earth, Leipzig University, Germany)主办,旨在探索从有限的植物性状数据中预测全球范围内的植物性状,以及整个生态系统将如何对气候变化做出反应。赛事要求利用植物的图像并结合植物生长环境与植物形状之间的关系预测出植物性状。赛题给定植物图像数据、植物生长环境信息以及植物性状的均值与方差进行模型训练,要求参赛者使用深度学习的回归模型从植物照片中预测植物属性,比如长度、发芽率等30余项属性。主办方将根据各参赛队伍提交的植物性状文件计算出平均R2进行排名。
该任务的一大难点在于数据量极少,单一类别植物至多只有6张图像与之对应。
为了解决上述问题,创新奇智团队选取ConvNeXtV2模型作为骨干网络(backbone)。考虑到该任务为植物细粒度回归任务,因此首先采用迁移学习(Transfer Learning)方法,在iNaturelist数据集上对该模型进行预训练,有效提升了该模型在植物特征提取方面的能力。同时,为了有效地利用植物生长环境等数据,团队对这些meta数据进行了归一化。在通过ConvNeXtV2网络提取出图像特征和将归一化后的meta数据拼接到图像特征之后,然后再通过多层感知机(MLP)对特征进行充分融合,输出植物的类别概率值。
在整个处理过程中,团队使用不同的概率进行数据添加和模型参数的丢弃,以获得多个模型的推理结果,并将输出的相应类别的概率值取平均以获得这些模型的最终分类结果。最终根据植物的类别确定出植物性状分布的范围后,再利用其均值进行后处理替换便得到植物30余项属性的数值。
SnakeCLEF2023赛题介绍及技术方案
为了解决上述问题,创新奇智团队选取timm开源模型库中的ConvNeXtV2模型作为骨干网络,提取图像的深层特征并与浅层特征进行融合。为了最大程度地利用训练数据,团队将图像分辨率调整为512x512,并对图像进行更鲁棒的数据增强,如随机裁剪、随机翻转、对比度和饱和度增强以及CutMix等。针对数据集的长尾分布问题,使用长尾实例分割中的Seesaw损失,减轻对尾部类别的压倒性惩罚,并补偿因惩罚减少而导致的错误分类风险。
此外,团队利用元数据中的国家地区代码构造文本提示词,输入到CLIP文本编码器中获取文本特征,与图像特征进行融合,并且团队设计了一个轻量的先验模型,计算样本使用文本特征进行分类的先验概率,在后处理阶段与骨干模型一起计算联合概率以提高模型的鲁棒性。通过这种方式,元数据可以提供图像中所缺乏的可靠地理位置信息,使模型如同人类专家一样综合多方面的信息之后进行判断。
成果落地应用
作为参赛队伍教练,这也是创新奇智CTO张发恩在本届CVPR指导获得的第二个细粒度视觉分类挑战赛冠军,他指出:“作为一家专注于人工智能商业化落地的企业,创新奇智不仅关注学术研究和前沿技术发展趋势,也积极地将研究成果应用于实际业务场景中。未来,我们将继续发挥在细粒度视觉分类领域的优势,不断提升我们的技术实力和产品服务水平,推动前沿人工智能技术在传统制造业的应用落地。”
*本文获刊转载,观点仅为作者所有
— 完 —
返回搜狐,查看更多
责任编辑:
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。