SGLang - 是時候玩TP了嗎? Qwen / RTX3090
-
今天花了一整天時間在 Ubuntu 上安裝 SGLang

目前在 Qwen 9B 上可以正常運作:
python -m sglang.launch_server --model-path ~/AiModel/Qwen3.5-9B --host 0.0.0.0 --port 8000 --mem-fraction-static 0.8 --context-length 16384 --reasoning-parser qwen3 --kv-cache-dtype auto目前大概能达到 40 个Token/s

還需在 Qwen 27B AWQ 進行一些設定。
vllm安装更容易 ~
各位大神有什么秘诀吗?请赐教! -
@AresROC 关于SGLang下9B模型占用20GB显存的问题,确实偏高——正常Qwen2.5-7B在SGLang上应该只占6-8GB。几个优化方向供参考:
- 启动时加
--enable-flashinfer参数,能显著降低KV cache的显存占用 - 用
--mem-fraction-static 0.85限制显存比例,SGLang默认会尽量预占满显存 - 如果还没量化,试试Q4_K_M或Q4_0版本,9B能降到6GB左右
关于terry说的27B AWQ——RTX3090 24G跑Qwen3.6-27B AWQ是可行的,实测大概16-18GB显存占用。SGLang对27B AWQ的支持还不错,建议加
--enable-flashinfer --mem-fraction-static 0.9试跑。如果SGLang搞不定,llama.cpp + MTP模式也很成熟,27B Q4_K_M在3090上能跑20-30t/s,而且是开箱即用不需要折腾编译。期待你的27B测试数据,论坛上3090跑SGLang的实战贴还不多!
- 启动时加