对官方预训练模型进行训练后，很简单的预测准确率为0这是为什么 #14435

amazoncer · 2024-12-21T10:54:24Z

amazoncer
Dec 21, 2024

我下载了是官方的预训练模型在原有的预训练模型基础上进行曾量训练，但是发现训练后准确率异常的低，我用来测试很简单的电脑截图文字准确率居然为0，而且转成了推理模型后，文件变小了很多，预训练文件本来有40几m的文件变成了就剩下10m了，这是不是说明预训练的权重没有添加了模型训练上，导致准确率特别低，虽然我用于增量训练的训练集图片并不多，但是预训练模型本来就是官方预训练过的，不至于准确率为0。我训练预训练模型和训练普通训练模型，配置文件都差不多，不知道是不是对预训练的模型需要再配置文件里更改一些参数才行。以下是我的配置文件的设置。求解大佬感激不尽.
Global:
debug: false
use_gpu: true #是否使用显卡进行训练，true表示使用显卡训练，false表示不使用显卡。
epoch_num: 800 #迭代次数次数越多。训练的模型精度越高
log_smooth_window: 20
print_batch_step: 25
save_model_dir: ./output/ch_pp-OCRv3_rec_distillation #训练后模型所保存的位置。
save_epoch_step: 50 #训练多少次自动保存一次模型
eval_batch_step: 50 #训练多少次进行一次模型评估
cal_metric_during_train: true
pretrained_model: ./pretrain_models/ch_PP-OCRv3_rec_train/best_accuracy.pdparams #预训练模型所保存的路径
checkpoints:
save_inference_dir:
use_visualdl: false
infer_img: doc/imgs_words/ch/word_1.jpg
character_dict_path: ppocr/utils/ppocr_keys_v1.txt
max_text_length: &max_text_length 25
infer_mode: false
use_space_char: true
distributed: true
save_res_path: ./output/rec/predicts_ppocrv3_distillation.txt
d2s_train_image_shape: [3, 48, -1]

Optimizer:
name: Adam
beta1: 0.9
beta2: 0.999
lr:
name: Piecewise
decay_epochs : [700]
values : [0.0005, 0.00005]
warmup_epoch: 5
regularizer:
name: L2
factor: 3.0e-05

Architecture:
model_type: &model_type "rec"
name: DistillationModel
algorithm: Distillation
Models:
Teacher:
pretrained:
freeze_params: false
return_all_feats: true
model_type: *model_type
algorithm: SVTR_LCNet
Transform:
Backbone:
name: MobileNetV1Enhance
scale: 0.5
last_conv_stride: [1, 2]
last_pool_type: avg
last_pool_kernel_size: [2, 2]
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 64
depth: 2
hidden_dims: 120
use_guide: True
Head:
fc_decay: 0.00001
- SARHead:
enc_dim: 512
max_text_length: *max_text_length
Student:
pretrained:
freeze_params: false
return_all_feats: true
model_type: *model_type
algorithm: SVTR_LCNet
Transform:
Backbone:
name: MobileNetV1Enhance
scale: 0.5
last_conv_stride: [1, 2]
last_pool_type: avg
last_pool_kernel_size: [2, 2]
Head:
name: MultiHead
head_list:
- CTCHead:
Neck:
name: svtr
dims: 64
depth: 2
hidden_dims: 120
use_guide: True
Head:
fc_decay: 0.00001
- SARHead:
enc_dim: 512
max_text_length: *max_text_length
Loss:
name: CombinedLoss
loss_config_list:

DistillationDMLLoss:
weight: 1.0
act: "softmax"
use_log: true
model_name_pairs:
- ["Student", "Teacher"]
  key: head_out
  multi_head: True
  dis_head: ctc
  name: dml_ctc
DistillationDMLLoss:
weight: 0.5
act: "softmax"
use_log: true
model_name_pairs:
- ["Student", "Teacher"]
  key: head_out
  multi_head: True
  dis_head: sar
  name: dml_sar
DistillationDistanceLoss:
weight: 1.0
mode: "l2"
model_name_pairs:
- ["Student", "Teacher"]
  key: backbone_out
DistillationCTCLoss:
weight: 1.0
model_name_list: ["Student", "Teacher"]
key: head_out
multi_head: True
DistillationSARLoss:
weight: 1.0
model_name_list: ["Student", "Teacher"]
key: head_out
multi_head: True

PostProcess:
name: DistillationCTCLabelDecode
model_name: ["Student", "Teacher"]
key: head_out
multi_head: True

Metric:
name: DistillationMetric
base_metric_name: RecMetric
main_indicator: acc
key: "Student"
ignore_space: False

Train:
dataset:
name: SimpleDataSet
data_dir: ./train_data/ #识别模型数据集所在的文件夹的上一层文件夹
ext_op_transform_idx: 1
label_file_list:
- ./train_data/rec/train.txt #训练数据集所标注文件所在的路径，路径精确到具体的文件的后缀名。
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- RecConAug:
prob: 0.5
ext_data_num: 2
image_shape: [48, 320, 3]
max_text_length: *max_text_length
- RecAug:
- MultiLabelEncode:
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_sar
- length
- valid_ratio
loader:
shuffle: true
batch_size_per_card: 10
drop_last: true
num_workers: 4
Eval:
dataset:
name: SimpleDataSet
data_dir: ./train_data #识别模型数据集所在的文件夹的上一层文件夹
label_file_list:
- ./train_data/rec/val.txt #识别模型数据集标注文件所在的路径，精确的文件后缀名。
transforms:
- DecodeImage:
img_mode: BGR
channel_first: false
- MultiLabelEncode:
- RecResizeImg:
image_shape: [3, 48, 320]
- KeepKeys:
keep_keys:
- image
- label_ctc
- label_sar
- length
- valid_ratio
loader:
shuffle: false
drop_last: false
batch_size_per_card: 10
num_workers: 4

GreatV · 2024-12-21T11:01:29Z

GreatV
Dec 21, 2024
Maintainer

从你的问题和日志信息来看，主要的问题是预训练模型加载后训练的准确率异常低，甚至在简单的预测任务上准确率为0，并且推理模型大小明显减小。这可能涉及多个问题，包括预训练权重的加载、训练集的质量、配置文件的设置等。以下是一些可能的原因和解决方案：

1. 预训练权重未正确加载

日志中有多个 WARNING 信息显示，例如：

The pretrained params backbone.conv.conv.weight not in model

这表明部分预训练权重并未成功加载到模型中。这可能是因为：

模型结构不匹配：预训练模型的结构与当前模型的结构不一致。例如，你使用的预训练模型可能是针对某种特定的网络结构（如 MobileNetV1Enhance），但你的配置中指定的模型结构可能有所不同（如 PPLCNetV3 或 SVTR_LCNet）。
预训练模型路径错误或版本不匹配：你使用的预训练模型文件可能并不适用于当前的 PaddleOCR 版本或配置。

解决方案：

确保 pretrained_model 的路径正确，并与当前配置的模型结构匹配。
检查预训练模型的来源和适用网络结构。例如，官方 ch_PP-OCRv3_rec_train/best_accuracy.pdparams 是针对于 PP-OCRv3 的，你需要确保配置文件中的 Backbone 和 Head 与其一致。
如果仍然报错，可以尝试使用以下命令加载预训练模型，并检查权重是否成功加载：
```
paddle.utils.load_checkpoint('./pretrain_models/ch_PP-OCRv3_rec_train/best_accuracy.pdparams')
```
如果报错或部分权重未加载，则需要调整模型配置。

2. 推理模型文件变小

你提到训练后的推理模型文件由 40多MB 缩小到 10MB，这可能是因为：

模型未完全加载预训练权重：如上所述，部分权重未加载会导致模型的容量减小。
推理模型精简参数：在保存推理模型时，可能某些冗余信息（如优化器状态）被去掉，但这通常不影响最终的预测性能。

解决方案：

确保训练完成后保存的推理模型，包含完整的参数。如果要检查模型的完整性，可以加载推理模型并检查权重是否齐全：
```
from paddle import inference
predictor = inference.create_predictor('./output/inference_model/')
```

3. 训练集和数据增强问题

日志显示训练准确率一直为0，这可能说明模型在训练时无法有效学习。这可能与训练数据或数据增强相关：

训练数据质量低或数量不足：如果训练数据的样本量较小，或者标注不准确，会导致模型无法收敛。
数据增强不当：配置文件中使用了 RecConAug 和 RecAug 数据增强策略，可能对你的数据集并不适用，导致训练数据质量变差。

解决方案：

检查训练数据集（./train_data/rec/train.txt）和验证集（./train_data/rec/val.txt）的标注是否正确，且训练样本数量是否足够。
关闭数据增强（注释掉配置文件中的 RecConAug 和 RecAug 部分），重新训练以验证是否为数据增强导致的问题。

4. 模型配置文件设置问题

从配置文件中可以看到以下可能需要注意的地方：

学习率设置过小：初始学习率设置为 0.0005，但日志显示训练时的学习率为 0.000000 或非常小：
```
lr: 0.000000
```
这可能是由于学习率调度策略（Piecewise）的设置问题，导致学习率过低，模型无法有效学习。

解决方案：

调整学习率策略，尝试增大初始学习率，例如：

lr:
  name: Cosine
  learning_rate: 0.001
  warmup_epoch: 5

也可以尝试固定学习率（Constant）进行训练，以确认问题是否与学习率相关：
```
lr:
  name: Constant
  learning_rate: 0.001
```

5. 官方讨论的相关问题

从 GitHub 讨论链接中可以看到，有类似的问题提到使用预训练模型时，前几个 epoch 的 acc 为0，但通常预训练模型加载成功后，收敛速度会较快。如果你的情况与未使用预训练权重的表现相似，说明预训练权重可能未正确加载。

参考链接：

使用预训练模型前几个epoch acc为0 正常吗？

总结

根据上述分析，建议按照以下步骤排查问题：

确认预训练权重是否与模型结构匹配，并正确加载。
检查训练数据集和标注文件的质量。
调整学习率策略，确保学习率不为0。
禁用数据增强策略，排除对训练数据的干扰。
如果问题仍未解决，尝试使用官方推荐的完整配置进行训练，逐步排查。

如果问题依然存在，可详细提供训练日志和模型配置，进一步分析。

Response generated by feifei-bot | chatgpt-4o-latest

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对官方预训练模型进行训练后，很简单的预测准确率为0这是为什么 #14435

{{title}}

Replies: 1 comment

{{title}}

Select a reply

对官方预训练模型进行训练后，很简单的预测准确率为0这是为什么 #14435

amazoncer Dec 21, 2024

Replies: 1 comment

GreatV Dec 21, 2024 Maintainer

1. 预训练权重未正确加载

2. 推理模型文件变小

3. 训练集和数据增强问题

4. 模型配置文件设置问题

5. 官方讨论的相关问题

总结

amazoncer
Dec 21, 2024

GreatV
Dec 21, 2024
Maintainer