-
Notifications
You must be signed in to change notification settings - Fork 56
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Megatron-LM权重转hf格式 #52
Comments
两边QKV projection view 的方式不同,tensor 的size 相同但里面的layout 可能不同。 |
请问这个问题解决了吗,我也遇到了同样的情况 |
我训的时候没有加 untie-embeddings-and-output-weights 参数,没有 output_layer 这一层,但是我按照 alibaba/Pai-Megatron-Patch 这个仓库的 convert_to_hf 方式,改了一下 QKV Tensor 的 Layerout 就正常了 |
请问用原始的Megatron-LM训练的llama2可以使用megatron_to_hf.sh脚本转换吗?目前遇到了一点问题,有些参数的格式不一样导致脚本运行报错,自己按理解改了一下,改完可以进行转换了,但转换后的hf模型输出有问题。
下面是我改动的地方,感觉前两处改动应该没有问题,参数名都比较接近,最后一个改动不知道对不对,参数的shape能对上,改完后输出全重复一个token
请问上面的改动有没有问题?能否提供一个支持Megatron-LM的转换脚本?
The text was updated successfully, but these errors were encountered: