-
Notifications
You must be signed in to change notification settings - Fork 255
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
qwen2vl-72b 多卡推理 #295
Comments
应该是有的,是这个modeling_qwen2_vl.py#L1039?正常来说,直接在多卡机器上跑会把模型切开到不同gpu上的,是跑的时候遇到什么报错了么? |
@kq-chen 报错out of memory,我们是做了一个benchmark,想在qwen上进行测试,使用accelerate多机训练,发现就算是batch=1也总是报显存溢出的错。 |
是不是没开bf16 flashattn |
用多张卡跑会遇到什么问题呢?使用 model = Qwen2VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen2-VL-72B-Instruct",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map="auto",
) 或者也可以试试用vllm,可以参考:#260 (comment) |
作者您好,在多卡推理时我遇到的问题是,假设使用device_map="auto",在有限资源的情况下,当视频帧数增加时,其中一张卡的显存会急剧增长(大于其他卡的增长,也就是出现显存分配不均匀,导致爆显存),这应该是跟device_map的切分策略有关系?这是不是不可避免的呢? |
您好,多卡推理的时候您有遇到这个问题吗?请问是如何解决的呢? |
您好 我也遇到了这个问题 请问解决了吗? |
您好,我遇到了和您同样的两个问题,请问您解决了吗 |
您好,我遇到了和您同样的两个问题,请问您解决了吗 |
或许可以试试用flash attention和bfloat16 model = Qwen2VLForConditionalGeneration.from_pretrained( |
|
需要测试一个非常长的问题,在单张卡上72b肯定爆显存,有没有将token分发到多张卡上的推理方式,类似于intervl的
no_split_module_classes
The text was updated successfully, but these errors were encountered: