4 X L20 部署本地模型 ,求大神指点
-
工作室内多了一个L20工作站,4张显卡。
怎么更好的配置LLM本地模型呢?如果要配置Qwen 3.6 27B 应该怎么设定,才能发挥这套硬件的最大能力呢?请各位大侠赐教。
特别,目前的配置,好像是有非常大的问题的
[root@localhost ~]# curl http://localhost:8000/v1/models
{"object":"list","data":[{"id":"/models/Qwen3.6-27B","object":"model","created":1779713843,"owned_by":"vllm","root":"/models/Qwen3.6-27B","parent":null,"max_model_len":16384,"permission":[{"id":"modelperm-85fd0f5b94fee3e2","object":"model_permission","created":1779713843,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}

-
@Foster-Xu 大哥你的配置吊打这个模型,能跑到高潮迭起,不过多卡我没啥经验,不好给你建议,你如果要折腾就别浪费时间搞VLLM了,现在打开Gemini,把你的环境告诉它,让它教你配置。或者你接入hermes,让它帮你配置SG-Lang,指定用docker方式部署,跑起来了来交作业。
-
@Foster-Xu 大哥你4卡上VLLM干嘛啊,既然让AI干了,让AI上SG-Lang,它有Radix缓存,你问下AI就知道了,这才能发挥战力。
-
@Foster-Xu 好吧确实如此,SG-Lang Bug较多,版本地狱。你折腾VLLM也对,你的主板PCIE再差,也不至于这个速度,肯定是配置有问题。但是我们没环境,没办法帮你分析。你要实在搞不定,就用4卡单独跑4个实例。按理说你的卡是数据中心卡,支持NVLINK的,试试看?
-
刚才部署了单卡的情况,请参考。
INT8 单卡部署成功了!关键数据:
模型权重:18.06 GiB(从 54 GB 量化到 18 GB)
KV cache 可用:20.78 GiB
KV cache 容量:332,662 tokens
最大并发:2.54x(128K 请求)
enforce-eager 模式(无 CUDA graph)
INT8 + CUDA graph: 33.41 tok/s。比 enforce-eager 的 23 tok/s 快了很多,但和 TP=4 BF16 的 34 tok/s 差不多。单卡没快多少,原因是 CUDA graph 部分 capture 失败,回退到了 eager 模式的那些层变慢了。
现在清理 INT8,试 INT4 (AWQ)。但 vLLM 的在线 AWQ 量化不太稳定,让我改试 --quantization fp8——FP8 量化更轻量,精度损失极小,且 L20 支持 FP8 计算。
-
直接生成一套方案:参考即可。
其中夹杂了,AI长期学习我产生的记忆。会按我的习惯做出部署。可以直接忽略。
这套 4×L20(184GB 显存) 的配置,最适合的定位是:本地大模型推理 API 节点,跑 32B–70B 级别 Dense 模型 或 量化版 MoE 模型,对外提供 OpenAI 兼容接口。 -
T terry 固定了该主题
-
大佬,你的卡算力比4090弱一点,带宽稍差一点,但是也足够了,显存很大,如果没有NVLink,我建议直接跑Qwen3.6 27b q4km量化模型,上LLamal.cpp,每个卡跑一个实例,不要跑什么INT8之类的。Q4量化足够了,推理时会返回BF16计算,这是目前最成熟的生态,KV量化方案你是N卡,建议上Turoquant Turbo3,既然是AI在操作,可以和它说明你的需求,AI不是一直很聪明的,你要坚持自己的意见,否则无限制折腾。记得把MTP加上,一步到位。VLLM的AQW量化模型没有不稳定的说法,我亲测过,完全没问题。你的单卡跑AI视频或者任何其他应用都够,大模型你可以选择2张卡,3张卡,空出一张卡做ComfyUI。我认为这样比较有性价比,调度也自由,不用考虑互联带宽问题。




