-
我用 |
Beta Was this translation helpful? Give feedback.
Replies: 3 comments 2 replies
-
如果是说该停的时候没停,然后后面都是重复内容的话,这个我们目前观察大概率是量化导致的。可以试试换AWQ,能缓解一些,原始精度模型目前看是正常的。 另外,由于vLLM默认的采样超参并不会读取模型文件中的默认参数,这边也建议一般都加上:https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html#openai-compatible-api-service (并不针对该情况) |
Beta Was this translation helpful? Give feedback.
-
@jklj077 是的,内容完成后又开始重复,有时候是最后一小段,有时候是重复输出最后一个字符。这是vllm的问题吗?如果是的话,那么我换一个推理服务是不是就好了? |
Beta Was this translation helpful? Give feedback.
-
我将模型换成了AWQ量化,重复内容的现象的确有缓解。但是依然会出现,尤其是输出内容特别长的时候。我尝试了设置repetition_penalty=1.05,这样会严重干扰后面输出的内容,大部分前面出现过的词会被替换成“*”号。这个方法完全不可行。 |
Beta Was this translation helpful? Give feedback.
如果是说该停的时候没停,然后后面都是重复内容的话,这个我们目前观察大概率是量化导致的。可以试试换AWQ,能缓解一些,原始精度模型目前看是正常的。
https://qwen.readthedocs.io/zh-cn/latest/quantization/gptq.html#qwen2-5-72b-instruct-gptq-int4-cannot-stop-generation-properly
另外,由于vLLM默认的采样超参并不会读取模型文件中的默认参数,这边也建议一般都加上:https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html#openai-compatible-api-service (并不针对该情况)