<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[4 X L20 部署本地模型 ，求大神指点]]></title><description><![CDATA[<p dir="auto">工作室内多了一个L20工作站，4张显卡。<br />
怎么更好的配置LLM本地模型呢？</p>
<p dir="auto">如果要配置Qwen 3.6 27B 应该怎么设定，才能发挥这套硬件的最大能力呢？请各位大侠赐教。</p>
<p dir="auto">特别，目前的配置，好像是有非常大的问题的<br />
[root@localhost ~]# curl <a href="http://localhost:8000/v1/models" rel="nofollow ugc">http://localhost:8000/v1/models</a><br />
{"object":"list","data":[{"id":"/models/Qwen3.6-27B","object":"model","created":1779713843,"owned_by":"vllm","root":"/models/Qwen3.6-27B","parent":null,"max_model_len":16384,"permission":[{"id":"modelperm-85fd0f5b94fee3e2","object":"model_permission","created":1779713843,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/6cc826c4-a042-41e8-8f33-d82db936c4b5.jpeg" alt="29cded22-b89b-4db3-a231-91e3d1e5a1af-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/4979d401-5cf3-4ae2-85ee-3feb6b5d9dee.jpeg" alt="fb02e408-8234-40ad-a12c-f13d6a7c1557-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/309/4-x-l20-部署本地模型-求大神指点</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 05:50:47 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/309.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 25 May 2026 13:04:49 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 11:36:05 GMT]]></title><description><![CDATA[<p dir="auto">大佬，你的卡算力比4090弱一点，带宽稍差一点，但是也足够了，显存很大，如果没有NVLink，我建议直接跑Qwen3.6 27b q4km量化模型，上LLamal.cpp，每个卡跑一个实例，不要跑什么INT8之类的。Q4量化足够了，推理时会返回BF16计算，这是目前最成熟的生态，KV量化方案你是N卡，建议上Turoquant Turbo3，既然是AI在操作，可以和它说明你的需求，AI不是一直很聪明的，你要坚持自己的意见，否则无限制折腾。记得把MTP加上，一步到位。VLLM的AQW量化模型没有不稳定的说法，我亲测过，完全没问题。你的单卡跑AI视频或者任何其他应用都够，大模型你可以选择2张卡，3张卡，空出一张卡做ComfyUI。我认为这样比较有性价比，调度也自由，不用考虑互联带宽问题。</p>
]]></description><link>https://lcz.me/post/3927</link><guid isPermaLink="true">https://lcz.me/post/3927</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 27 May 2026 11:36:05 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Thu, 28 May 2026 04:45:43 GMT]]></title><description><![CDATA[<p dir="auto">直接生成一套方案：参考即可。<br />
其中夹杂了，AI长期学习我产生的记忆。会按我的习惯做出部署。可以直接忽略。<br />
这套 <strong>4×L20（184GB 显存）</strong> 的配置，最适合的定位是：<strong>本地大模型推理 API 节点</strong>，跑 <strong>32B–70B 级别 Dense 模型</strong> 或 <strong>量化版 MoE 模型</strong>，对外提供 OpenAI 兼容接口。</p>
]]></description><link>https://lcz.me/post/3903</link><guid isPermaLink="true">https://lcz.me/post/3903</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Thu, 28 May 2026 04:45:43 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:56:33 GMT]]></title><description><![CDATA[<p dir="auto">按理说这么大的显存，而且多卡并行，应该是无脑FP16+256K上下文的。但是因为完全没经验，所以就不班门弄斧了。<br />
期待楼主的成果。</p>
]]></description><link>https://lcz.me/post/3898</link><guid isPermaLink="true">https://lcz.me/post/3898</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Wed, 27 May 2026 06:56:33 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:50:25 GMT]]></title><description><![CDATA[<p dir="auto">太复杂了，都是GLM 5.1 + ClaudeCode在干，我也是围观的人... -_-!</p>
]]></description><link>https://lcz.me/post/3897</link><guid isPermaLink="true">https://lcz.me/post/3897</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Wed, 27 May 2026 06:50:25 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:48:22 GMT]]></title><description><![CDATA[<p dir="auto">这个只能围观了。没打过这么富裕的仗……</p>
<p dir="auto">说正经的，单卡,8比特量化，33.41 tok/s这个数据从他的显存位宽来看也差不多合理。但是多卡*4就完全不是我能理解的领域了……<br />
我更好奇的是prefill性能如何。</p>
]]></description><link>https://lcz.me/post/3896</link><guid isPermaLink="true">https://lcz.me/post/3896</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Wed, 27 May 2026 06:48:22 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:28:51 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/51a35ea6-48db-4192-b683-69ca881085aa.jpeg" alt="9a5566a0-ed30-438f-8ada-7be445773609-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3895</link><guid isPermaLink="true">https://lcz.me/post/3895</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Wed, 27 May 2026 06:28:51 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Wed, 27 May 2026 06:25:19 GMT]]></title><description><![CDATA[<p dir="auto">刚才部署了单卡的情况，请参考。</p>
<p dir="auto">INT8 单卡部署成功了！关键数据：</p>
<p dir="auto">模型权重：18.06 GiB（从 54 GB 量化到 18 GB）<br />
KV cache 可用：20.78 GiB<br />
KV cache 容量：332,662 tokens<br />
最大并发：2.54x（128K 请求）<br />
enforce-eager 模式（无 CUDA graph）</p>
<hr />
<p dir="auto">INT8 + CUDA graph: 33.41 tok/s。比 enforce-eager 的 23 tok/s 快了很多，但和 TP=4 BF16 的 34 tok/s 差不多。单卡没快多少，原因是 CUDA graph 部分 capture 失败，回退到了 eager 模式的那些层变慢了。</p>
<p dir="auto">现在清理 INT8，试 INT4 (AWQ)。但 vLLM 的在线 AWQ 量化不太稳定，让我改试 --quantization fp8——FP8 量化更轻量，精度损失极小，且 L20 支持 FP8 计算。</p>
<hr />
]]></description><link>https://lcz.me/post/3892</link><guid isPermaLink="true">https://lcz.me/post/3892</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Wed, 27 May 2026 06:25:19 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 01:04:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/foster-xu" aria-label="Profile: Foster-Xu">@<bdi>Foster-Xu</bdi></a> 好吧确实如此，SG-Lang Bug较多，版本地狱。你折腾VLLM也对，你的主板PCIE再差，也不至于这个速度，肯定是配置有问题。但是我们没环境，没办法帮你分析。你要实在搞不定，就用4卡单独跑4个实例。按理说你的卡是数据中心卡，支持NVLINK的，试试看？</p>
]]></description><link>https://lcz.me/post/3691</link><guid isPermaLink="true">https://lcz.me/post/3691</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 26 May 2026 01:04:49 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 00:45:10 GMT]]></title><description><![CDATA[<p dir="auto">我做了一下测试，好像数据很垃圾啊</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/02f82326-4e58-40f1-85da-8c498abbe020.jpeg" alt="6c791cda-f8e6-4d9c-a704-3d2d22a13064-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3688</link><guid isPermaLink="true">https://lcz.me/post/3688</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Tue, 26 May 2026 00:45:10 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Tue, 26 May 2026 00:41:05 GMT]]></title><description><![CDATA[<p dir="auto">昨天我让AI给我分析了一下，他说vLLM更加合适。。。我就没有动了</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/c02a8bbc-6b22-400b-bc47-1b91d721ae5e.jpeg" alt="0a9e4ae4-529e-4c0f-9823-149bbe687863-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3686</link><guid isPermaLink="true">https://lcz.me/post/3686</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Tue, 26 May 2026 00:41:05 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 22:11:33 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/foster-xu" aria-label="Profile: Foster-Xu">@<bdi>Foster-Xu</bdi></a> 大哥你4卡上VLLM干嘛啊，既然让AI干了，让AI上SG-Lang，它有Radix缓存，你问下AI就知道了，这才能发挥战力。</p>
]]></description><link>https://lcz.me/post/3665</link><guid isPermaLink="true">https://lcz.me/post/3665</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Mon, 25 May 2026 22:11:33 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 15:53:38 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/4f4576b5-b739-4444-9271-3afbb8761b04.jpeg" alt="14652aaf-972a-48c3-b7cc-bfc9e9fa207e-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3639</link><guid isPermaLink="true">https://lcz.me/post/3639</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Mon, 25 May 2026 15:53:38 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 15:35:20 GMT]]></title><description><![CDATA[<p dir="auto">来回折腾了一下，分别使用了hermes的问答，太慢了。让hermes直接干，有点没底。最后用vsCode的claudCode插件直接操作，AI干完了。</p>
<p dir="auto">一遍一遍的各种测试，各种搞，还是AI干起来更快</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/cc0c38d1-d369-4cf7-80ef-96dd902f3a94.jpeg" alt="649c6c96-79e7-425f-aac9-6f770709bda3-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3626</link><guid isPermaLink="true">https://lcz.me/post/3626</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Mon, 25 May 2026 15:35:20 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:14:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/foster-xu" aria-label="Profile: Foster-Xu">@<bdi>Foster-Xu</bdi></a> 大哥你的配置吊打这个模型，能跑到高潮迭起，不过多卡我没啥经验，不好给你建议，你如果要折腾就别浪费时间搞VLLM了，现在打开Gemini，把你的环境告诉它，让它教你配置。或者你接入hermes，让它帮你配置SG-Lang，指定用docker方式部署，跑起来了来交作业。</p>
]]></description><link>https://lcz.me/post/3603</link><guid isPermaLink="true">https://lcz.me/post/3603</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Mon, 25 May 2026 13:14:26 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:10:01 GMT]]></title><description><![CDATA[<p dir="auto">我感觉目前这个配置好像完全没有设置好，确实有点糟蹋。16K 的上下文 Hermes 都跑不起来 -_-!!</p>
]]></description><link>https://lcz.me/post/3602</link><guid isPermaLink="true">https://lcz.me/post/3602</guid><dc:creator><![CDATA[Foster Xu]]></dc:creator><pubDate>Mon, 25 May 2026 13:10:01 GMT</pubDate></item><item><title><![CDATA[Reply to 4 X L20 部署本地模型 ，求大神指点 on Mon, 25 May 2026 13:06:50 GMT]]></title><description><![CDATA[<p dir="auto">这个需要高手来解答，超出了我的能力范围，这个组合我建议你就不要VLLM了，死磕SG-Lang，否则糟蹋了这个硬件。</p>
]]></description><link>https://lcz.me/post/3601</link><guid isPermaLink="true">https://lcz.me/post/3601</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Mon, 25 May 2026 13:06:50 GMT</pubDate></item></channel></rss>