VLLM塞不下模型

Reply to VLLM塞不下模型 on Fri, 08 May 2026 13:59:27 GMT

用測試 — Fri, 08 May 2026 13:59:27 GMT

好的謝謝指導~

zhiqing — Fri, 08 May 2026 01:49:59 GMT

上下文开太长了，vllm建议用awq，32g够跑了，24g的话只能玩玩gguf

用測試 — Thu, 07 May 2026 15:01:16 GMT

好的，謝謝大哥我試看看

linax777 — Thu, 07 May 2026 14:38:38 GMT

KV cache 也要吃 VRAM 啊，gpu-memory-utilization 要設定夠高，VRAM 不夠 max_model_len 就不能設定太大

terry — Thu, 07 May 2026 22:31:19 GMT

你要不懂Linux下载一个lmstudio 或者llama.cpp，5090足够驱动模型，龙虾不能装在模型的宿主机，会搞坏环境，你的电脑性能不错，可以装个虚拟机，带UI的ubuntu，把openclaw或者Hermes放进去