-
我们收集整理了开源以来在 issues 和用户群中的常见问题并且给出了简要解答,旨在为广大用户提供一些参考,也希望帮助大家少走一些弯路。
-
图像分类、识别、检索领域大佬众多,模型和论文更新速度也很快,本文档回答主要依赖有限的项目实践,难免挂一漏万,如有遗漏和不足,也希望有识之士帮忙补充和修正,万分感谢。
A:目前有三种方法可以使用
-
手动修改模型代码,使用
paddle.ParamAttr(learning_rate=0.0)
,将冻结层的学习率设置为0.0,具体用法可以查看paddle.ParamAttr文档。如下代码可以将self.conv层的weight参数学习率设置为0.0。self.conv = Conv2D( in_channels=num_channels, out_channels=num_filters, kernel_size=filter_size, stride=stride, padding=(filter_size - 1) // 2, groups=groups, weight_attr=ParamAttr(learning_rate=0.0), # <--在这里设置 bias_attr=False, data_format=data_format)
-
手动设置冻结层的stop_gradient=True,可参考此链接。使用此方法后,梯度回传到strop_gradient的层之后,停止反向回传,即之前的层的权重也会被固定。
-
在loss.backward()之后,optimizer.step()之前,使用nn.Layer或者paddle.Tensor的clear_gradients()方法。对要固定的层或参数,调用此方法,不用影响loss回传。如下代码可以清空某一层的梯度或者是某一层的某个参数张量的梯度
import paddle linear = paddle.nn.Linear(3, 4) x = paddle.randn([4, 3]) y = linear(x) loss = y.sum().backward() print(linear.weight.grad) print(linear.bias.grad) linear.clear_gradients() # 清空整个Linear层的梯度,包括linear.weight和linear.bias # linear.weight.clear_grad() # 只清空Linear.weight的梯度 print(linear.weight.grad) print(linear.bias.grad)