PKD: General Distillation Framework for

(一) Title
论文地址:
(二)
研究背景:
本文的主要工作
本文的主要贡献:
(三)
作者指出直接对齐学生网络和教师网络的特征存在着两个问题:
从图片展示上来看,如下:
从上面的描述中,总结下来,希望能够解决的三个问题是:
(四)
本文提出使用(PCC)来进行蒸馏,为了解决上述3个问题 in? of,FPNand,首先将特征图归一化到0均值,单位方差 。这里使用的是哪一个norm方式呢?这里实际上等价于最大化皮尔逊相关系数,此外PCC还能够减少特征幅度对于梯度反传的影响 。使得训练过程更加稳定 。这里需要注意的是:仅仅对于FPN特征进行了蒸馏 。
详细的蒸馏过程如下:
PCC和KL散度之间的关联是什么呢?
KL散度在蒸馏过程中的处理方式为:首先通过函数将激活值转换成概率分布,然后最小化教师和学生激活值之间的KL散度损失,从公式上来看是:
L K L = T 2 ∑ i = 1 m ? ( t i ) ? log ? [ ? ( t i ) ? ( s i ) ] \{L}_{K L}=T^{2} \sum_{i=1}^{m} \phi\left(t_{i}\right) \cdot \log \left[\frac{\phi\left(t_{i}\right)}{\phi\left(s_{i}\right)}\right] LKL?=T2i=1∑m??(ti?)?log[?(si?)?(ti?)?]
归一化方式为:
? ( t ) = exp ? ( t i / T ) ∑ j = 1 m exp ? ( t j / T ) \phi(t)=\frac{\exp \left(t_{i} / T\right)}{\sum_{j=1}^{m} \exp \left(t_{j} / T\right)} ?(t)=∑j=1m?exp(tj?/T)exp(ti?/T)?
然后,这里作者说在高温条件下,最小化post- 之间的KL散度,等价于最小化MSE,然后就等价于在pre- 之间的最大化皮尔逊相关系数 。
接着KL散度对于s ^ i \hat{s}_i s^i?求梯度,得到:
? L K L ? s ^ i = T ( q i ? p i ) = T ( e s i / T ^ ∑ j e s j / T ^ ? e t i / T ^ ∑ j e t j / T ^ ) \frac{\ \{L}_{K L}}{\ \hat{s}_{i}}=T\left(q_{i}-p_{i}\right)=T\left(\frac{e^{\hat{s_{i} / T}}}{\sum_{j} e^{\hat{s_{j} / T}}}-\frac{e^{\hat{t_{i} / T}}}{\sum_{j} e^{\hat{t_{j} / T}}}\right) ?s^i??LKL??=T(qi??pi?)=T(∑j?esj?/T^?esi?/T^???∑j?etj?/T^?eti?/T^??)
其中 p i = ? ( t i ^ ) and q i = ? ( s i ^ ) p_{i}=\phi\left(\hat{t_{i}}\right) \text { and } q_{i}=\phi\left(\hat{s_{i}}\right) pi?=?(ti?^?)andqi?=?(si?^?),这里的梯度求导方式不知道是则得到的?
接着当温度足够高时,有近似计算如下:
? L K L ? s i ^ ≈ T ( 1 + s i ^ / T N + ∑ j s j ^ / T ? 1 + t i ^ / T N + ∑ j t j ^ / T ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ T\left(\frac{1+\hat{s_{i}} / T}{N+\sum_{j} \hat{s_{j}} / T}-\frac{1+\hat{t_{i}} / T}{N+\sum_{j} \hat{t_{j}} / T}\right) ?si?^??LKL??≈T(N+∑j?sj?^?/T1+si?^?/T??N+∑j?tj?^?/T1+ti?^?/T?)
由于 s ^ i , t ^ i \hat{s}_i,\hat{t}_i s^i?,t^i?都是0均值的,然后上式就可以简化成:
? L K L ? s i ^ ≈ 1 N ( s i ^ ? t i ^ ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ \frac{1}{N}\left(\hat{s_{i}}-\hat{t_{i}}\right) ?si?^??LKL??≈N1?(si?^??ti?^?)
然后观察同PCC之间的差异 。
(五)
【PKD: General Distillation Framework for】同质结构下的蒸馏
异质结构下的蒸馏过程 。
针对之前提到的三种问题,设计了三个蒸馏对象来比较MSE和本文提出的PKD的差异 。
超参数对于蒸馏效果的影响