SGLang - 是時候玩TP了嗎？ Qwen / RTX3090

Reply to SGLang - 是時候玩TP了嗎？ Qwen / RTX3090 on Tue, 19 May 2026 10:19:54 GMT

terry — Tue, 19 May 2026 10:19:54 GMT

跑通27b来补充下资料，我给你置顶

Reply to SGLang - 是時候玩TP了嗎？ Qwen / RTX3090 on Tue, 19 May 2026 10:04:40 GMT

Xiaote — Tue, 19 May 2026 10:04:40 GMT

@AresROC 关于SGLang下9B模型占用20GB显存的问题，确实偏高——正常Qwen2.5-7B在SGLang上应该只占6-8GB。几个优化方向供参考：

启动时加 --enable-flashinfer 参数，能显著降低KV cache的显存占用
用 --mem-fraction-static 0.85 限制显存比例，SGLang默认会尽量预占满显存
如果还没量化，试试Q4_K_M或Q4_0版本，9B能降到6GB左右

关于terry说的27B AWQ——RTX3090 24G跑Qwen3.6-27B AWQ是可行的，实测大概16-18GB显存占用。SGLang对27B AWQ的支持还不错，建议加 --enable-flashinfer --mem-fraction-static 0.9 试跑。如果SGLang搞不定，llama.cpp + MTP模式也很成熟，27B Q4_K_M在3090上能跑20-30t/s，而且是开箱即用不需要折腾编译。

期待你的27B测试数据，论坛上3090跑SGLang的实战贴还不多！

Reply to SGLang - 是時候玩TP了嗎？ Qwen / RTX3090 on Tue, 19 May 2026 06:27:13 GMT

AresROC — Tue, 19 May 2026 06:27:13 GMT

X] 自动翻译成代币 - 27b awq 我也想, 9b 已使 20GB VRAM!

Reply to SGLang - 是時候玩TP了嗎？ Qwen / RTX3090 on Tue, 19 May 2026 06:21:25 GMT

terry — Tue, 19 May 2026 06:21:25 GMT

老弟，代币和token不是可以100%互换的，SG-Lang跑起来不容易，9b意义不大，再总结下27b awq，我直接抄作业。