【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文原文】 ：Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learning for Model Compression

获取地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761511

博主关键词： 知识蒸馏，相互学习，师生网络，在线蒸馏。

推荐相关论文：

- 无

摘要：

知识蒸馏（KD）是一种有效的模型压缩技术，是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下，相互学习（ML）提供了一种替代策略， 即使没有强大但静态的教师网络，也可以从共享知识中使多个简单的学生网络受益。 在这些发现的激励下，我们提出了一个单教师、多学生的框架，该框架利用 KD 和 ML 来实现更好的表现。此外，我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能，我们使用三种不同版本的师生网络对基准生物医学分类（MSI与MSS）和目标检测（息肉检测）任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果，从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

简介：

深度学习在过去十年中引起了医疗保健部门的极大兴趣。在医学专家和研究人员的协助下，它在药物发现、医学图像分析、机器人手术等多个领域取得了可喜的成果。虽然深度学习技术表现得非常好，但它们需要在大型数据集上训练大型模型才能实现这一壮举。然而，由于与训练它们相关的计算成本以及它们无法扩展到资源有限的医疗设备，大型模型并不总是实际可行的。因此，人们转向开发更小、更快、更高效的深度学习模型，而不会显着影响性能。最近，知识蒸馏（KD）已成为创建这种更小和高效架构的潜在候选者。它涉及将庞大的预训练教师网络获得的知识转移到紧凑的学生模型中。师生互动机制旨是在逐步使学生能够复制训练有素的教师模式的行为。

知识蒸馏现在被认为是一种成熟且有效的模型压缩技术。其应用包括各种计算机视觉任务，包括分割，目标检测和识别。自成立以来，已经提出了几种KD变体，以加强知识转移。传统上， 师生网络在被称为离线 KD 的两阶段过程中进行训练。 预先训练的教师网络保持固定，同时提供结构化知识来指导学生的学习过程。相比之下， 在线蒸馏将所有网络视为对等体，并在一步过程中协作训练它们。 深度互学习（DML）通过提炼两个学生网络之间的对数信息，取得了有希望的结果。一般来说，知识的转移是使用对数实现的，但也探索了中级表示的转移。FitNet 从预先训练的教师网络中传输特征图，以改善学生网络的监督学习。此外，所 有学生生成的对数集合已被证明优于直接使用对数信息的方法。 进化蒸馏被提出，其通过在教师和学生网络之间引入引导模块来转移中间级表示。除了计算机视觉，KD的优势也被用于医学图像分析。提出了互知蒸馏（MKD），以将知识从一种模态（MR图像）转移到另一种模态（CT图像）以进行分割任务。知识从训练多模态数据的教师网络蒸馏到用于阿尔茨海默病预测的单模态学生网络。

从在线动态学习中汲取灵感，我们探索了通过多个学生之间的相互学习来增强教师对学生的知识蒸馏的想法。我们的主要贡献是：

- 我们建议使用单教师、多学生的框架将知识蒸馏的好处与相互学习相结合。
- 我们的在线训练框架包括将老师的预测传递给每个学生，并在同一培训步骤中同时在学生之间共享日志信息。
- 我们证明了我们提出的方法使用三种不同的网络配置在基准生物医学分类和检测任务上的有效性。
Fig. 1. Overview of the combined knowledge distillation and mutual learning technique with one teacher and two student networks.

Fig. 1.结合知识蒸馏和相互学习技术与一个教师和两个学生网络概述。