Skip to content

Latest commit

 

History

History
171 lines (109 loc) · 11.9 KB

File metadata and controls

171 lines (109 loc) · 11.9 KB

SSLD 知识蒸馏实战

目录

1. 算法介绍

1.1 简介

PaddleClas 融合已有的知识蒸馏方法 [2,3],提供了一种简单的半监督标签知识蒸馏方案(SSLD,Simple Semi-supervised Label Distillation),基于 ImageNet1k 分类数据集,在 ResNet_vd 以及 MobileNet 系列上的精度均有超过 3% 的绝对精度提升,具体指标如下图所示。

1.2 SSLD蒸馏策略

SSLD 的流程图如下图所示。

首先,我们从 ImageNet22k 中挖掘出了近 400 万张图片,同时与 ImageNet-1k 训练集整合在一起,得到了一个新的包含 500 万张图片的数据集。然后,我们将学生模型与教师模型组合成一个新的网络,该网络分别输出学生模型和教师模型的预测分布,与此同时,固定教师模型整个网络的梯度,而学生模型可以做正常的反向传播。最后,我们将两个模型的 logits 经过 softmax 激活函数转换为 soft label,并将二者的 soft label 做 JS 散度作为损失函数,用于蒸馏模型训练。

以 MobileNetV3(该模型直接训练,精度为 75.3%)的知识蒸馏为例,该方案的核心策略优化点如下所示。

实验ID 策略 Top-1 acc
1 baseline 75.60%
2 更换教师模型精度为82.4%的权重 76.00%
3 使用改进的JS散度损失函数 76.20%
4 迭代轮数增加至360epoch 77.10%
5 添加400W挖掘得到的无标注数据 78.50%
6 基于ImageNet1k数据微调 78.90%
  • 注:其中baseline的训练条件为
    • 训练数据:ImageNet1k数据集
    • 损失函数:Cross Entropy Loss
    • 迭代轮数:120epoch

SSLD 蒸馏方案的一大特色就是无需使用图像的真值标签,因此可以任意扩展数据集的大小,考虑到计算资源的限制,我们在这里仅基于 ImageNet22k 数据集对蒸馏任务的训练集进行扩充。在 SSLD 蒸馏任务中,我们使用了 Top-k per class 的数据采样方案 [3] 。具体步骤如下。

(1)训练集去重。我们首先基于 SIFT 特征相似度匹配的方式对 ImageNet22k 数据集与 ImageNet1k 验证集进行去重,防止添加的 ImageNet22k 训练集中包含 ImageNet1k 验证集图像,最终去除了 4511 张相似图片。部分过滤的相似图片如下所示。

(2)大数据集 soft label 获取,对于去重后的 ImageNet22k 数据集,我们使用 ResNeXt101_32x16d_wsl 模型进行预测,得到每张图片的 soft label 。

(3)Top-k 数据选择,ImageNet1k 数据共有 1000 类,对于每一类,找出属于该类并且得分最高的 k 张图片,最终得到一个数据量不超过 1000*k 的数据集(某些类上得到的图片数量可能少于 k 张)。

(4)将该数据集与 ImageNet1k 的训练集融合组成最终蒸馏模型所使用的数据集,数据量为 500 万。

1.3 SKL-UGI蒸馏策略

此外,在无标注数据选择的过程中,我们发现使用更加通用的数据,即使不需要严格的数据筛选过程,也可以帮助知识蒸馏任务获得稳定的精度提升,因而提出了SKL-UGI (Symmetrical-KL Unlabeled General Images distillation)知识蒸馏方案。

通用数据可以使用ImageNet数据或者与场景相似的数据集。更多关于SKL-UGI的应用,请参考:超轻量图像分类方案PULC使用教程

2. 预训练模型库

移动端预训练模型库列表如下所示。

模型 FLOPs(M) Params(M) top-1 acc SSLD top-1 acc 精度收益 下载链接
PPLCNetV2_base 604.16 6.54 77.04% 80.10% +3.06% 链接
PPLCNet_x2_5 906.49 9.04 76.60% 80.82% +4.22% 链接
PPLCNet_x1_0 160.81 2.96 71.32% 74.39% +3.07% 链接
PPLCNet_x0_5 47.28 1.89 63.14% 66.10% +2.96% 链接
PPLCNet_x0_25 18.43 1.52 51.86% 53.43% +1.57% 链接
MobileNetV1 578.88 4.19 71.00% 77.90% +6.90% 链接
MobileNetV2 327.84 3.44 72.20% 76.74% +4.54% 链接
MobileNetV3_large_x1_0 229.66 5.47 75.30% 79.00% +3.70% 链接
MobileNetV3_small_x1_0 63.67 2.94 68.20% 71.30% +3.10% 链接
MobileNetV3_small_x0_35 14.56 1.66 53.00% 55.60% +2.60% 链接
GhostNet_x1_3_ssld 236.89 7.30 75.70% 79.40% +3.70% 链接
  • 注:其中的top-1 acc表示使用普通训练方式得到的模型精度,SSLD top-1 acc表示使用SSLD知识蒸馏训练策略得到的模型精度。

服务端预训练模型库列表如下所示。

模型 FLOPs(G) Params(M) top-1 acc SSLD top-1 acc 精度收益 下载链接
PPHGNet_base 25.14 71.62 - 85.00% - 链接
PPHGNet_small 8.53 24.38 81.50% 83.80% +2.30% 链接
PPHGNet_tiny 4.54 14.75 79.83% 81.95% +2.12% 链接
ResNet50_vd 8.67 25.58 79.10% 83.00% +3.90% 链接
ResNet101_vd 16.1 44.57 80.20% 83.70% +3.50% 链接
ResNet34_vd 7.39 21.82 76.00% 79.70% +3.70% 链接
Res2Net50_vd_26w_4s 8.37 25.06 79.80% 83.10% +3.30% 链接
Res2Net101_vd_26w_4s 16.67 45.22 80.60% 83.90% +3.30% 链接
Res2Net200_vd_26w_4s 31.49 76.21 81.20% 85.10% +3.90% 链接
HRNet_W18_C 4.14 21.29 76.90% 81.60% +4.70% 链接
HRNet_W48_C 34.58 77.47 79.00% 83.60% +4.60% 链接
SE_HRNet_W64_C 57.83 128.97 - 84.70% - 链接

3. SSLD使用方法

3.1 加载SSLD模型进行微调

如果希望直接使用预训练模型,可以在训练的时候,加入参数-o Arch.pretrained=True -o Arch.use_ssld=True,表示使用基于SSLD的预训练模型,示例如下所示。

# 单机单卡训练
python3 tools/train.py -c ppcls/configs/ImageNet/ResNet/ResNet50_vd.yaml -o Arch.pretrained=True -o Arch.use_ssld=True
# 单机多卡训练
python3 -m paddle.distributed.launch --gpus="0,1,2,3" tools/train.py -c ppcls/configs/ImageNet/ResNet/ResNet50_vd.yaml -o Arch.pretrained=True -o Arch.use_ssld=True

3.2 使用SSLD方案进行知识蒸馏

相比于其他大多数知识蒸馏算法,SSLD摆脱对数据标注的依赖,通过引入无标注数据,可以进一步提升模型精度。

对于无标注数据,需要按照与有标注数据完全相同的整理方式,将文件与当前有标注的数据集放在相同目录下,将其标签值记为0,假设整理的标签文件名为train_list_unlabel.txt,则可以通过下面的命令生成用于SSLD训练的标签文件。

cat train_list.txt train_list_unlabel.txt > train_list_all.txt

更多关于图像分类任务的数据标签说明,请参考:PaddleClas图像分类数据集格式说明

PaddleClas中集成了PULC超轻量图像分类实用方案,里面包含SSLD ImageNet预训练模型的使用以及更加通用的无标签数据的知识蒸馏方案,更多详细信息,请参考PULC超轻量图像分类实用方案使用教程

4. 参考文献

[1] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015.

[2] Bagherinezhad H, Horton M, Rastegari M, et al. Label refinery: Improving imagenet classification through label progression[J]. arXiv preprint arXiv:1805.02641, 2018.

[3] Yalniz I Z, Jégou H, Chen K, et al. Billion-scale semi-supervised learning for image classification[J]. arXiv preprint arXiv:1905.00546, 2019.

[4] Touvron H, Vedaldi A, Douze M, et al. Fixing the train-test resolution discrepancy[C]//Advances in Neural Information Processing Systems. 2019: 8250-8260.