Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ModuleNotFoundError: No module named 'transformers.generation' #26

Open
magnificent1208 opened this issue Mar 30, 2023 · 10 comments
Open

Comments

@magnificent1208
Copy link

多卡finetune,出现这个问题

@HarderThenHarder
Copy link
Owner

Hi,确认一下跑单卡 train.py 的时候会不会出现这个问题。

  1. 如果单卡仍出现问题:我使用的transformers版本是 4.27.1,您尝试安装一下对应版本后试试。

  2. 如果安装对应版本后还是存在问题:可以提供一下 terminal 的截图供我参考一下吗?

@magnificent1208
Copy link
Author

Hi,确认一下跑单卡 train.py 的时候会不会出现这个问题。

  1. 如果单卡仍出现问题:我使用的transformers版本是 4.27.1,您尝试安装一下对应版本后试试。
  2. 如果安装对应版本后还是存在问题:可以提供一下 terminal 的截图供我参考一下吗?

感谢,1 有效。
但出现新问题:ModuleNotFoundError: No module named 'transformers_modules.THUDM.chatglm-6b.096f3de6b4959ce38bef7bb05f3129c931a3084e.tokenization_chatglm'

是需要把清华的这个模型路径,放到指定位置吗?还是我config没导入成功

@HarderThenHarder
Copy link
Owner

尝试删掉之前下载的GLM缓存,并重新下载。

检查一下:~/.cache/huggingface/modules/transformers_modules 是否存在 THUDM 文件夹。

如果有,则删掉它并重新运行程序,即可重新下载。

@magnificent1208
Copy link
Author

image
删除缓存成功跑起来。但没过多久就断了。如图
这从哪个方向debug

@HarderThenHarder
Copy link
Owner

HarderThenHarder commented Mar 30, 2023

看错误截图是模型存储的时候路径已经存在导致的。

我不知道您为什么会出现这样的问题,但您可以尝试把 290 行和 291 行给注释掉:

# if not os.path.exists(cur_save_dir):
#    os.makedirs(cur_save_dir)

并删除 checkpoints_parrallel/ 目录,重新开启训练。

@magnificent1208
Copy link
Author

看错误截图是模型存储的时候路径已经存在导致的。

我不知道您为什么会出现这样的问题,但您可以尝试把 290 行和 291 行给注释掉:

# if not os.path.exists(cur_save_dir):
#    os.makedirs(cur_save_dir)

并删除 checkpoints_parrallel/ 目录,重新开启训练。

成功训练!感谢。但是好像每次都要清缓存

@hrdxwandg
Copy link

hrdxwandg commented Apr 13, 2023

FileNotFoundError: [Errno 2] No such file or directory: '~/.cache/huggingface/modules/transformers_modules/THUDM/chatglm-6b/969290547e761b20fdb96b0602b4fd8d863bbb85/tokenization_chatglm.py'

ModuleNotFoundError: No module named 'transformers_modules.THUDM.chatglm-6b.969290547e761b20fdb96b0602b4fd8d863bbb85.tokenization_chatglm'

我也出现类似问题,刚启动时就出现。
checkpoints_parrallel/ 目录都没有生成,还没开始训练
单卡没问题,多卡就出现这个问题。
但是.cache里是有的

@hrdxwandg
Copy link

感觉跟进程有关?我是8卡失败,6卡有时成功

@magnificent1208
Copy link
Author

magnificent1208 commented Apr 13, 2023 via email

@hrdxwandg
Copy link

hrdxwandg commented Apr 14, 2023

原因找到了,是huggingface transformers的bug。
huggingface/transformers#22506
用main分支重新安装下包就行

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants