Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Bug] 无法多卡并行评测数据 #1755

Open
2 tasks done
luhairong11 opened this issue Dec 11, 2024 · 1 comment
Open
2 tasks done

[Bug] 无法多卡并行评测数据 #1755

luhairong11 opened this issue Dec 11, 2024 · 1 comment
Assignees

Comments

@luhairong11
Copy link

先决条件

问题类型

我正在使用官方支持的任务/模型/数据集进行评估。

环境

命令

CUDA_VISIBLE_DEVICES=6,7 opencompass --models vllm_qwen2_5_0_5b_instruct --datasets triviaqa_gen -a vllm --max-num-worker 2

执行上述模型文件,应该是运行下面路径的这个配置

./opencompass-main/opencompass/configs/models/qwen2_5/vllm_qwen2_5_0_5b_instruct.py
image

GPU只占用了一张卡

image

重现问题 - 代码/配置示例

见上述

重现问题 - 命令或脚本

见上述

重现问题 - 错误信息

见上述

其他信息

No response

@luhairong11
Copy link
Author

如果用下面命令进行多卡数据并行,单模型,多数据,是可以得到预期

CUDA_VISIBLE_DEVICES=4,5,6,7 python3 run.py --models vllm_qwen2_5_0_5b_instruct --datasets triviaqa_gen bbh_gen --max-num-worker 4

但是用下面命令进行多卡数据并行,多模型,多数据,不能得到预期

CUDA_VISIBLE_DEVICES=4,5,6,7 python3 run.py --models vllm_qwen2_5_0_5b_instruct vllm_qwen2_5_3b_instruct --datasets triviaqa_gen bbh_gen --max-num-worker 4
通过查看日志:

  1. 首先会进行vllm_qwen2_5_0_5b_instruct模型的推理,使用的是4卡进行数据并行推理,这部分正常,
  2. 然后会执行vllm_qwen2_5_3b_instruct模型的推理,希望也是使用4卡进行数据并行推理,可实际上只使用了2卡,
    下面是部分截图
    一开始显示占用的是5,6显卡,后面又显示占用的是4,7显卡
    image
    image
    下面是predictions文件夹显示的信息,显示占用的是5,6显卡的时候,predictions文件夹内会接着生成*_1,_3.json的文件,
    当上面图片显示占用的是4.7显卡的时候,predictions文件夹内会接着生成
    _0,*_2.json的文件
    image
    image

疑问

为何脚本执行vllm_qwen2_5_3b_instruct 推理的时候显卡只用了2张,预期是希望4张卡进行数据并行

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants