Skip to content

v0.9.3

Compare
Choose a tag to compare
@jerryli1981 jerryli1981 released this 30 Oct 06:35
· 8 commits to main since this release
bf582d8

--优化Qwen2/2.5模型的微调效果,解决梯度累计下的长短样本导致的loss计算问题。
--添加预览版的大模型训练最优吞吐参数配置。
--修复DeepSeekV2的Tokenizer的Issue。
--修复Qwen2/2.5的TE2HF转换Issue。
--修复模型转换体积过大的Issue。