We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好 我尝试在您发布在huggingface的BART base chinese checkpoint上继续预训练,但是发现训练之后的效果反而更差了。
预训练之前: [{'generated_text': '作 为 电 子 支 付 的 平 台 , 京 东 绝 对 是 领 先 者 而 如 今 的 刘 强 东 已 经 是 身 价 过 亿 的 老 板 。'}]
预训练之后: [{'generated_text': '作 为 电 子 。 电 子 的 平 台 , 京 东 绝 对 是 领 先 者 。 如 今 的 刘 强 , 已 经 是 身 价 过 去 的 老 板 。'}]
但是loss看起来是正常的: | 15000/ 300000 steps| 45762.33 tokens/s| loss 3.85| acc: 0.405 | 20000/ 300000 steps| 45768.57 tokens/s| loss 1.86| acc: 0.660 | 25000/ 300000 steps| 45703.98 tokens/s| loss 0.86| acc: 0.857 | 30000/ 300000 steps| 45733.30 tokens/s| loss 0.62| acc: 0.901 | 35000/ 300000 steps| 45730.72 tokens/s| loss 0.53| acc: 0.915 | 40000/ 300000 steps| 45734.99 tokens/s| loss 0.46| acc: 0.924 | 45000/ 300000 steps| 45734.17 tokens/s| loss 0.42| acc: 0.930
以下是我的预训练命令: python3 pretrain.py --dataset_path cluecorpussmall_bart_seq512_dataset.pt --pretrained_model_path pytorch_model.bin --vocab_path models/google_zh_vocab.txt --config_path models/bart/base_config.json --output_model_path models/cluecorpussmall_bart_seq512_dataset.bin --world_size 4 --gpu_ranks 0 1 2 3 --total_steps 30000000 --save_checkpoint_steps 100000 --report_steps 5000 --learning_rate 1e-4 --batch_size --span_masking --span_max_length 3 --embedding word_pos --tgt_embedding word_pos --encoder transformer --mask fully_visible --decoder transformer --target bart --tie_weights --has_lmtarget_bias
如果有问题的话,希望您能指出,感激不尽!
The text was updated successfully, but these errors were encountered:
您好,可以提供一下您训练的语料以及preprocess的脚本么
Sorry, something went wrong.
应该是checkpoint没加载正确的原因
No branches or pull requests
您好
我尝试在您发布在huggingface的BART base chinese checkpoint上继续预训练,但是发现训练之后的效果反而更差了。
预训练之前:
[{'generated_text': '作 为 电 子 支 付 的 平 台 , 京 东 绝 对 是 领 先 者 而 如 今 的 刘 强 东 已 经 是 身 价 过 亿 的 老 板 。'}]
预训练之后:
[{'generated_text': '作 为 电 子 。 电 子 的 平 台 , 京 东 绝 对 是 领 先 者 。 如 今 的 刘 强 , 已 经 是 身 价 过 去 的 老 板 。'}]
但是loss看起来是正常的:
| 15000/ 300000 steps| 45762.33 tokens/s| loss 3.85| acc: 0.405
| 20000/ 300000 steps| 45768.57 tokens/s| loss 1.86| acc: 0.660
| 25000/ 300000 steps| 45703.98 tokens/s| loss 0.86| acc: 0.857
| 30000/ 300000 steps| 45733.30 tokens/s| loss 0.62| acc: 0.901
| 35000/ 300000 steps| 45730.72 tokens/s| loss 0.53| acc: 0.915
| 40000/ 300000 steps| 45734.99 tokens/s| loss 0.46| acc: 0.924
| 45000/ 300000 steps| 45734.17 tokens/s| loss 0.42| acc: 0.930
以下是我的预训练命令:
python3 pretrain.py --dataset_path cluecorpussmall_bart_seq512_dataset.pt
--pretrained_model_path pytorch_model.bin
--vocab_path models/google_zh_vocab.txt
--config_path models/bart/base_config.json
--output_model_path models/cluecorpussmall_bart_seq512_dataset.bin
--world_size 4 --gpu_ranks 0 1 2 3
--total_steps 30000000 --save_checkpoint_steps 100000 --report_steps 5000
--learning_rate 1e-4 --batch_size
--span_masking --span_max_length 3
--embedding word_pos --tgt_embedding word_pos
--encoder transformer --mask fully_visible --decoder transformer
--target bart --tie_weights
--has_lmtarget_bias
如果有问题的话,希望您能指出,感激不尽!
The text was updated successfully, but these errors were encountered: