We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我正在使用 sglang 部署 Qwen-2.5 72B FP16 模型,部署环境为 4 块 PCIe A800 GPU。目前,我正在构建一个 RAG 应用,希望在 prompt 较长 (4000~10000 tokens or more) 时尽可能优化模型服务的 TTFT(Time to First Token)。在寻找解决方案时,我发现你们的项目中有一些关于 sglang 的基准测试参数,我对这些参数非常感兴趣,希望能了解更多细节。
sglang
硬件: 4 块 PCIe A800 GPU
模型: Qwen-2.5 72B FP16
部署工具: sglang v0.4.0
sglang v0.4.0
python -m sglang.launch_server --port 8080 --model-path /mnt/models --disable-radix-cache --tp 4 --chunked-prefill-size 2048 --disable-custom-all-reduce --max-num-reqs 40
我对以下参数特别感兴趣,希望你们解释一下为什么要这样设置,在我目前的配置中并没有尝试过这些选项。这样对优化TTFT是否有帮助?
--disable-radix-cache
--chunked-prefill-size 2048
--disable-custom-all-reduce
我计划在空闲时间在我的环境中运行基准测试,对比一下ZhiLight和sglang。
感谢你们提供的工具和资源,期待能从你们的经验中学习到更多!
The text was updated successfully, but these errors were encountered:
@zhanghx0905 这些参数是针对我们的环境和使用场景做的设置,简单解释下,详情可参考sglang相关文档和项目代码
--chunked-prefill-size
Sorry, something went wrong.
No branches or pull requests
我正在使用
sglang
部署 Qwen-2.5 72B FP16 模型,部署环境为 4 块 PCIe A800 GPU。目前,我正在构建一个 RAG 应用,希望在 prompt 较长 (4000~10000 tokens or more) 时尽可能优化模型服务的 TTFT(Time to First Token)。在寻找解决方案时,我发现你们的项目中有一些关于sglang
的基准测试参数,我对这些参数非常感兴趣,希望能了解更多细节。硬件: 4 块 PCIe A800 GPU
模型: Qwen-2.5 72B FP16
部署工具:
sglang v0.4.0
我对以下参数特别感兴趣,希望你们解释一下为什么要这样设置,在我目前的配置中并没有尝试过这些选项。这样对优化TTFT是否有帮助?
--disable-radix-cache
--chunked-prefill-size 2048
--disable-custom-all-reduce
我计划在空闲时间在我的环境中运行基准测试,对比一下ZhiLight和sglang。
感谢你们提供的工具和资源,期待能从你们的经验中学习到更多!
The text was updated successfully, but these errors were encountered: