-
Notifications
You must be signed in to change notification settings - Fork 463
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Bug] v0.3.5版本评测Qwen/Qwen2.5-72B得分显著下降 #1675
Comments
主要是更新最新代码后leaderboard/qwen.py里一些任务的评测分数变化,大概看了下,其中:
|
Thanks for the report, we will follow this issue and check the problem. |
第三点已在https://github.com/open-compass/opencompass/pull/1688/files 修复,拉取下最新的代码重新跑一下评估。 |
辛苦修复~ 另外这里使用的评测配置是leaderboard/qwen.py,看还有leaderboard/qwen_chat.py,所以并不是qwen.py给base模型用、qwen_chat.py给chat模型用的吗?当前评测只修改 |
另外还想问下,咱们新版本对于instruct模型已经默认使用
|
借楼,对于 LMTemplateParser 和 APITemplateParser 大概看了看源码感觉目前拼接策略好像不太一致,而且存在 api_role 这个强制 key,存在了 BC,比如 begin 和 end 这个地方,可不可以补充和优化一下 meta template 文档 |
#1699 辛苦再试一下。 |
这个是因为 vLLM框架本身不返回 logits 导致无法计算 PPL,你可以尝试用 LMDeploywithChatTemplate 来跑PPL的方式评测。instruct模型一般建议用 gen 的方式评测 |
收到,我们后续补充和优化下 meta tamplate 的文档 |
vLLM可以返回logits的,咱们VLLM就支持get_ppl的 https://github.com/open-compass/opencompass/blob/0.3.5/opencompass/models/vllm.py#L110 ,只是VLLMwithChatTemplate不支持get_ppl, 另外看LMDeploywithChatTemplate/TurboMindModelwithChatTemplate 貌似也没有实现get_ppl呢 |
Prerequisite
Type
I'm evaluating with the officially supported tasks/models/datasets.
Environment
torch==2.2.0+vllm==0.4.0+OpenCompass==0.3.5
Reproduces the problem - code/configuration sample
使用如下评测配置评测Qwen/Qwen2.5-72B'
Reproduces the problem - command or script
直接使用run.py运行上面的评测配置文件,部分任务在最新的v0.3.5版本得分较低,相较早先v0.2.5(commit e0d7808)版本得分大幅下降
Reproduces the problem - error message
左为v0.3.5版本得分 vs. 右为早先代码版本得分
Other information
No response
The text was updated successfully, but these errors were encountered: