4 X L20 部署本地模型，求大神指点

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 11:36:05 GMT

terry — Wed, 27 May 2026 11:36:05 GMT

大佬，你的卡算力比4090弱一点，带宽稍差一点，但是也足够了，显存很大，如果没有NVLink，我建议直接跑Qwen3.6 27b q4km量化模型，上LLamal.cpp，每个卡跑一个实例，不要跑什么INT8之类的。Q4量化足够了，推理时会返回BF16计算，这是目前最成熟的生态，KV量化方案你是N卡，建议上Turoquant Turbo3，既然是AI在操作，可以和它说明你的需求，AI不是一直很聪明的，你要坚持自己的意见，否则无限制折腾。记得把MTP加上，一步到位。VLLM的AQW量化模型没有不稳定的说法，我亲测过，完全没问题。你的单卡跑AI视频或者任何其他应用都够，大模型你可以选择2张卡，3张卡，空出一张卡做ComfyUI。我认为这样比较有性价比，调度也自由，不用考虑互联带宽问题。

Reply to 4 X L20 部署本地模型，求大神指点 on Thu, 28 May 2026 04:45:43 GMT

williamlouis — Thu, 28 May 2026 04:45:43 GMT

直接生成一套方案：参考即可。
其中夹杂了，AI长期学习我产生的记忆。会按我的习惯做出部署。可以直接忽略。
这套 4×L20（184GB 显存） 的配置，最适合的定位是：本地大模型推理 API 节点，跑 32B–70B 级别 Dense 模型 或 量化版 MoE 模型，对外提供 OpenAI 兼容接口。

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 06:56:33 GMT

kop wang — Wed, 27 May 2026 06:56:33 GMT

按理说这么大的显存，而且多卡并行，应该是无脑FP16+256K上下文的。但是因为完全没经验，所以就不班门弄斧了。
期待楼主的成果。

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 06:50:25 GMT

Foster Xu — Wed, 27 May 2026 06:50:25 GMT

太复杂了，都是GLM 5.1 + ClaudeCode在干，我也是围观的人... -_-!

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 06:48:22 GMT

kop wang — Wed, 27 May 2026 06:48:22 GMT

这个只能围观了。没打过这么富裕的仗……

说正经的，单卡,8比特量化，33.41 tok/s这个数据从他的显存位宽来看也差不多合理。但是多卡*4就完全不是我能理解的领域了……
我更好奇的是prefill性能如何。

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 06:28:51 GMT

Foster Xu — Wed, 27 May 2026 06:28:51 GMT

Reply to 4 X L20 部署本地模型，求大神指点 on Wed, 27 May 2026 06:25:19 GMT

Foster Xu — Wed, 27 May 2026 06:25:19 GMT

刚才部署了单卡的情况，请参考。

INT8 单卡部署成功了！关键数据：

模型权重：18.06 GiB（从 54 GB 量化到 18 GB）
KV cache 可用：20.78 GiB
KV cache 容量：332,662 tokens
最大并发：2.54x（128K 请求）
enforce-eager 模式（无 CUDA graph）

INT8 + CUDA graph: 33.41 tok/s。比 enforce-eager 的 23 tok/s 快了很多，但和 TP=4 BF16 的 34 tok/s 差不多。单卡没快多少，原因是 CUDA graph 部分 capture 失败，回退到了 eager 模式的那些层变慢了。

现在清理 INT8，试 INT4 (AWQ)。但 vLLM 的在线 AWQ 量化不太稳定，让我改试 --quantization fp8——FP8 量化更轻量，精度损失极小，且 L20 支持 FP8 计算。

Reply to 4 X L20 部署本地模型，求大神指点 on Tue, 26 May 2026 01:04:49 GMT

terry — Tue, 26 May 2026 01:04:49 GMT

@Foster-Xu 好吧确实如此，SG-Lang Bug较多，版本地狱。你折腾VLLM也对，你的主板PCIE再差，也不至于这个速度，肯定是配置有问题。但是我们没环境，没办法帮你分析。你要实在搞不定，就用4卡单独跑4个实例。按理说你的卡是数据中心卡，支持NVLINK的，试试看？

Reply to 4 X L20 部署本地模型，求大神指点 on Tue, 26 May 2026 00:45:10 GMT

Foster Xu — Tue, 26 May 2026 00:45:10 GMT

我做了一下测试，好像数据很垃圾啊

Reply to 4 X L20 部署本地模型，求大神指点 on Tue, 26 May 2026 00:41:05 GMT

Foster Xu — Tue, 26 May 2026 00:41:05 GMT

昨天我让AI给我分析了一下，他说vLLM更加合适。。。我就没有动了

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 22:11:33 GMT

terry — Mon, 25 May 2026 22:11:33 GMT

@Foster-Xu 大哥你4卡上VLLM干嘛啊，既然让AI干了，让AI上SG-Lang，它有Radix缓存，你问下AI就知道了，这才能发挥战力。

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 15:53:38 GMT

Foster Xu — Mon, 25 May 2026 15:53:38 GMT

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 15:35:20 GMT

Foster Xu — Mon, 25 May 2026 15:35:20 GMT

来回折腾了一下，分别使用了hermes的问答，太慢了。让hermes直接干，有点没底。最后用vsCode的claudCode插件直接操作，AI干完了。

一遍一遍的各种测试，各种搞，还是AI干起来更快

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 13:14:26 GMT

terry — Mon, 25 May 2026 13:14:26 GMT

@Foster-Xu 大哥你的配置吊打这个模型，能跑到高潮迭起，不过多卡我没啥经验，不好给你建议，你如果要折腾就别浪费时间搞VLLM了，现在打开Gemini，把你的环境告诉它，让它教你配置。或者你接入hermes，让它帮你配置SG-Lang，指定用docker方式部署，跑起来了来交作业。

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 13:10:01 GMT

Foster Xu — Mon, 25 May 2026 13:10:01 GMT

我感觉目前这个配置好像完全没有设置好，确实有点糟蹋。16K 的上下文 Hermes 都跑不起来 -_-!!

Reply to 4 X L20 部署本地模型，求大神指点 on Mon, 25 May 2026 13:06:50 GMT

terry — Mon, 25 May 2026 13:06:50 GMT

这个需要高手来解答，超出了我的能力范围，这个组合我建议你就不要VLLM了，死磕SG-Lang，否则糟蹋了这个硬件。

4 X L20 部署本地模型 ，求大神指点

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 11:36:05 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Thu, 28 May 2026 04:45:43 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:56:33 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:50:25 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:48:22 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:28:51 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:25:19 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 01:04:49 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 00:45:10 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 00:41:05 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 22:11:33 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 15:53:38 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 15:35:20 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:14:26 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:10:01 GMT

Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:06:50 GMT