v0.9.3
--优化Qwen2/2.5模型的微调效果,解决梯度累计下的长短样本导致的loss计算问题。
--添加预览版的大模型训练最优吞吐参数配置。
--修复DeepSeekV2的Tokenizer的Issue。
--修复Qwen2/2.5的TE2HF转换Issue。
--修复模型转换体积过大的Issue。
--优化Qwen2/2.5模型的微调效果,解决梯度累计下的长短样本导致的loss计算问题。
--添加预览版的大模型训练最优吞吐参数配置。
--修复DeepSeekV2的Tokenizer的Issue。
--修复Qwen2/2.5的TE2HF转换Issue。
--修复模型转换体积过大的Issue。