2022
年
AC
M
国际多媒体顶级会议(
ACM
Multimedia, ACM MM
)录用结果公布,本实验室的学生马晨曦、程日、姜旭浩、邢稹(与青年研究员谭伟敏为共同一作)完成的
4
篇论文《
Rethinking Super-Resolution as Text-Guided Details G
eneration
》、《
Geometry-Aware Reference Synthesis for Multi-View Image Super-Resolution
》、《
Learning Parallax Transformer Network for Stereo Image JPEG Artifacts Removal
》、《
Co-Completion for Occluded Facial Expression Recognition
》被录用。
ACM Multimedia
是国际多媒体领域学术和产业界交流的最顶级盛会,也是中国计算机学会推荐的多媒体领域唯一的
A
类国际学术会议。
2022
年,
ACM MM
主办地为葡萄牙里斯本,投稿量
2473
篇,录用文章
690
篇,录用率为
27.9%
。
图
1.
提出的网络结构
图
2.
实验结果对比
本文提出了一种文本指导的图像超分辨率重构方法,实现利用文本信息辅助生成高分辨率图像内容。在现有多媒体领域,基于深度学习技术的图像增强方法大多仅基于单一的图像模态预测真实高质量图像。随着多模态学习技术的发展,本文提出一种基于多模态融合学习技术的文本引导图像超分辨率重构的方法,展示了多模态图像重构的可行性和未来发展潜力。本方法通过结合文本模态和图像模态的信息以利用文本描述中包含的丰富语义信息,进而辅助图像超分辨率重构过程(图
1
)。具体来说,本方法提出一个多模态图像超分网络(图
2
),首先利用文本编码器提取文本特征,将文本特征输入图像超分网络中。其次,提出一个文本感知模块学习文本特征与图像特征间的视觉关联,提升低分辨率图像特征的语义准确性,生成一个初步的图像超分辨率重构结果,最后利用从粗到细的卷积神经网络结构预测最终的高分辨率图像。
图3
算法框架图
多视图多媒体应用难以同时满足用户高分辨率视觉体验和存储、带宽需求。为此,本文提出了一种多视图图像超分辨率任务,旨在提高从同一场景捕获的多视角图像的分辨率。一种解决方案是应用图像或视频超分辨率方法从低分辨率输入视图重建高分辨率结果。然而,这些方法不能处理视图之间的大角度转换,也不能利用所有多视图图像中的信息。为了解决这些问题,本文提出了
MVSRnet
,如图(
a
)所示,它利用几何信息从所有低分辨率多视图中提取清晰的细节,用这些细节来帮助视角图片的超分。具体而言,
MVSRnet
中提出的几何感知参考合成模块利用几何信息和所有多视图低分辨率图像来合成像素对齐的高分辨率参考图像,如图(
b
)所示。然后,在
MVSRnet
中提出的动态高频搜索网络充分利用了参考图像中的高频纹理细节进行多视角图片超分辨率。大量的实验结果表明,本方法明显优于目前最先进的单图、视频、有参考超分辨率方法。
图4
算法框架图
本文提出了一种利用
Parallax Transformer
进行左右视图特征匹配的网络,能够有效地去除立体图像压缩噪声。近些年,立体图像处理由于巨大的商业价值受到广泛的关注。在实际中,通常采用图像压缩算法(
JPEG
)来保存立体图像,这不可避免引入压缩噪声。因此,本文提出了
PTNet
,通过
Parallax Transformer
对左右视图特征进行匹配,注意该匹配对压缩噪声鲁棒。此外,由于遮挡、边界等因素,
PTNet
进一步提出了基于置信度图的自适应特征融合方法。具体地说,
PTNet
利用
Parallax Transformer
来提取特征匹配的相似度,并将相似度值作为匹配的置信度,然后利用该置信度图融合两个视角的特征,以降低遮挡的影响。大量的实验结果表明,与最新的单图压缩噪声去除方法和立体超分算法相比,本文方法在立体图像噪声去除任务上表现出明显优势。同时,可以有效提升立体图像在视差估计任务上的性能。
本文提出了一种基于协同补全的有遮挡人脸表情识别方法,能够在检测遮挡物的同时对人脸表情进行识别。遮挡物的存在,破坏了图像中人脸的结构完整性、引入了语义无关的视觉模式并导致了被覆盖区域的信息缺失,从而限制了相关算法在真实场景中的应用。一种直观的解决方法是对有遮挡图像进行盲修复,而后进行表情识别。然而此种方法存在过程冗余、耦合度高等缺点,且盲修复网络在真实遮挡图像上表现不佳。为此,本文提出了
Co-Completion
方法,它对上述方法进行流程优化,通过联合遮挡物抠除与特征补全以抑制遮挡物干扰、提升识别精度。大量实验结果表明,本文提出的方法在合成和真实遮挡数据集上都能够达到最好或与其他识别算法相当的识别精度。