[Bug] 无法多卡并行评测数据 #1755

luhairong11 · 2024-12-11T09:56:44Z

先决条件

我已经搜索过问题和讨论但未得到预期的帮助。
错误在最新版本中尚未被修复。

问题类型

我正在使用官方支持的任务/模型/数据集进行评估。

环境

命令

CUDA_VISIBLE_DEVICES=6,7 opencompass --models vllm_qwen2_5_0_5b_instruct --datasets triviaqa_gen -a vllm --max-num-worker 2

执行上述模型文件，应该是运行下面路径的这个配置

./opencompass-main/opencompass/configs/models/qwen2_5/vllm_qwen2_5_0_5b_instruct.py

GPU只占用了一张卡

重现问题 - 代码/配置示例

见上述

重现问题 - 命令或脚本

见上述

重现问题 - 错误信息

见上述

其他信息

No response

luhairong11 · 2024-12-11T10:47:36Z

如果用下面命令进行多卡数据并行，单模型，多数据，是可以得到预期

CUDA_VISIBLE_DEVICES=4,5,6,7 python3 run.py --models vllm_qwen2_5_0_5b_instruct --datasets triviaqa_gen bbh_gen --max-num-worker 4

但是用下面命令进行多卡数据并行，多模型，多数据，不能得到预期

CUDA_VISIBLE_DEVICES=4,5,6,7 python3 run.py --models vllm_qwen2_5_0_5b_instruct vllm_qwen2_5_3b_instruct --datasets triviaqa_gen bbh_gen --max-num-worker 4
通过查看日志：

首先会进行vllm_qwen2_5_0_5b_instruct模型的推理，使用的是4卡进行数据并行推理，这部分正常，
然后会执行vllm_qwen2_5_3b_instruct模型的推理，希望也是使用4卡进行数据并行推理，可实际上只使用了2卡，
下面是部分截图
一开始显示占用的是5，6显卡，后面又显示占用的是4，7显卡


下面是predictions文件夹显示的信息，显示占用的是5，6显卡的时候，predictions文件夹内会接着生成*_1，_3.json的文件，
当上面图片显示占用的是4.7显卡的时候，predictions文件夹内会接着生成_0，*_2.json的文件

疑问

为何脚本执行vllm_qwen2_5_3b_instruct 推理的时候显卡只用了2张，预期是希望4张卡进行数据并行

mm-assistant bot assigned MaiziXiao Dec 11, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug] 无法多卡并行评测数据 #1755

[Bug] 无法多卡并行评测数据 #1755

luhairong11 commented Dec 11, 2024

luhairong11 commented Dec 11, 2024

[Bug] 无法多卡并行评测数据 #1755

[Bug] 无法多卡并行评测数据 #1755

Comments

luhairong11 commented Dec 11, 2024

先决条件

问题类型

环境

命令

执行上述模型文件，应该是运行下面路径的这个配置

GPU只占用了一张卡

重现问题 - 代码/配置示例

重现问题 - 命令或脚本

重现问题 - 错误信息

其他信息

luhairong11 commented Dec 11, 2024

如果用下面命令进行多卡数据并行，单模型，多数据，是可以得到预期

但是用下面命令进行多卡数据并行，多模型，多数据，不能得到预期

疑问