继续预训练的效果评估
#5865
Replies: 1 comment
-
您好,我也遇到了类似问题,方便加个联系方式交流一下吗!vx:18923400893 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Reminder
System Info
llamafactory
version: 0.9.1.dev0Reproduction
llamafactory-cli train --stage pt --do_train True --model_name_or_path /root/autodl-tmp/Qwen/Qwen2___5-1___5B-Instruct --preprocessing_num_workers 16 --finetuning_type full --template qwen --flash_attn auto --dataset_dir data --dataset class_stand --cutoff_len 4096 --learning_rate 1e-05 --num_train_epochs 20.0 --max_samples 10000 --per_device_train_batch_size 2 --gradient_accumulation_steps 8 --lr_scheduler_type linear --max_grad_norm 0.5 --logging_steps 5 --save_steps 200 --warmup_steps 200 --optim adamw_torch --packing True --report_to none --use_galore True --output_dir /root/autodl-tmp/Qwen2.5/full/train_2024-10-29-11-37-39 --bf16 True --plot_loss True --ddp_timeout 180000000 --include_num_input_tokens_seen True --galore_rank 8 --galore_update_interval 200 --galore_scale 0.25 --galore_target all --val_size 0.1 --eval_strategy steps --eval_steps 200 --per_device_eval_batch_size 2 --overwrite_output_dir --save_total_limit 1 --load_best_model_at_end True
Expected behavior
我的问题是:通常大语言模型的知识量是在预训练过程注入的,而预训练通常会将长文本切割成一个个段落。但是这样的话在训练时是怎么关联起来这个上下文的呢?例如:我的数据集中有一个30k长度左右的文本,我想让继续预训练后的模型完全记住我这个文本中的所有内容,我应该如何做呢?
Others
No response
Beta Was this translation helpful? Give feedback.
All reactions