qwen2.5的eos_token改成了"<|endoftext|>"，这是出于什么考虑呢？ #1080

echoht · 2024-11-15T03:58:46Z

echoht
Nov 15, 2024

为什么不同版本之间的tokenizer_config.json里对应的eos_token都不同呢？下游sft训练的时候应该用哪个呢？以及推理的时候应该用哪个作为end呢？

qwen2.5-14B如下：
"eos_token": "<|endoftext|>",
"errors": "replace",
"model_max_length": 131072,
"pad_token": "<|endoftext|>",

qwen2-72b-instruct如下：
"eos_token": "<|im_end|>",

qwen1.5-14b-chat如下：
"eos_token": "<|endoftext|>"

jklj077 · 2024-11-18T03:28:30Z

Qwen预训练模型和指令微调模型的说明，请看我们的文档。基模型和指令微调模型均以<|endoftext|>表示单文档的序列终止，指令微调模型中使用ChatML模板，每条信息的终止符可以视为<|im_end|>。

使用Qwen公开的模型进行推理，停止条件应当以generation_config.json里的eos_token_id为准，而非tokenizer_config.json，以符合transformers的设计。

微调的选择：

如果使用基模型作为微调起点，可以使用各类指令模板。
- 实际单条信息的终止符以模板采用的终止符为准。微调后需要相应更改tokenizer_config.json中的chat_template和generation_config.json中的eos_token_id。
- 需要注意的是，如果微调方法不训练embedding或lm_head，则仅使用模型已经训练过的token作为模板的终止符，否则模型可能无法生成预定的终止符。
如果使用指令微调模型作为微调起点：
- 应尽可能使用ChatML作为指令模板，微调后无需更改配置。
- 也可以选择其它指令模板，此时注意事项如同使用基模型作为微调起点。

0 replies