<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.]]></title><description><![CDATA[<p dir="auto">我的RTX 3090 24G显卡  (主机内存48G) UBUNTU 24.04 现在下载那个Qwen3.6-35B-A3B-APEX-GGUF 22.08GB,903MB的quality,怎样通过fastllm或者sglang进行合理分层,达到,速度,质量,还有显存/内存,以及上下文长度, 这几个指标之间的均衡?</p>
<p dir="auto">Qwen3.6-35B-A3B-APEX-I-Quality 22.08GB 分层优化指南（24G RTX3090 专属）<br />
先给你一个小白直接抄作业的核心结论：你的 22.08GB 模型在 24G RTX3090 上，不需要分层 offload 任何权重到 CPU，只要开启 INT8 KV 缓存量化，就能稳定跑6144 Token（≈4500 汉字）上下文，速度约60-65 token/s，质量几乎和原版无差别。<br />
下面我会分别讲SGLang（推荐首选）和FastLLM的最优配置，以及如何在速度、质量、显存、上下文之间做微调。<br />
一、先纠正一个关键硬件限制<br />
你的 RTX3090 是安培架构，不支持硬件加速的 FP8 运算。所以不要用 FP8 KV 缓存，会强制软件模拟，速度反而变慢。最优选择是 INT8 KV 缓存：<br />
显存占用：比默认 FP16 减少50%<br />
精度损失：几乎不可察觉（远小于模型量化本身的损失）<br />
速度：和 FP16 KV 缓存几乎一样，甚至更快（因为内存带宽压力小）<br />
二、SGLang 最优配置（推荐首选，速度最快）<br />
SGLang 是目前Qwen3.6 MoE 模型推理速度最快的框架，比 llama.cpp 快 20-30%，比 vLLM 快 10-15%，特别适合你的 24G 显卡。</p>
<ol>
<li>一键启动命令（直接复制粘贴）<br />
bash<br />
运行<br />
python -m sglang.launch_server <br />
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf <br />
--model-format gguf <br />
--context-length 6144 <br />
--kv-cache-dtype int8 <br />
--mem-fraction-static 0.92 <br />
--chunked-prefill-enabled <br />
--enable-radix-cache <br />
--chat-template qwen3 <br />
--extra-body '{"enable_thinking": false}' <br />
--port 8000</li>
<li>每个参数的作用和为什么这么设<br />
表格<br />
参数	作用	为什么设这个值<br />
--model-path ./xxx.gguf	模型文件路径	替换成你下载的 22.08GB 文件的实际路径<br />
--model-format gguf	指定模型格式	告诉 SGLang 这是 GGUF 格式的模型<br />
--context-length 6144	最大上下文长度	24G 显卡的黄金平衡点，再大就需要 offload 权重了<br />
--kv-cache-dtype int8	KV 缓存精度	3090 最优选择，显存减半，速度不变<br />
--mem-fraction-static 0.92	显存分配比例	给模型和 KV 缓存分配 92% 的显存（约 22.08GB），刚好放下你的模型 + 6K INT8 KV 缓存<br />
--chunked-prefill-enabled	分块预填充	避免长 prompt 一次性吃光显存，提升稳定性<br />
--enable-radix-cache	启用 Radix 缓存	多轮对话中自动复用历史 KV 缓存，速度提升 30% 以上<br />
--chat-template qwen3	聊天模板	正确加载 Qwen3.6 的对话格式，避免乱码<br />
--extra-body '{"enable_thinking": false}'	关闭思考模式	Qwen3.6 默认会输出思考过程，浪费 token 和速度，日常使用建议关闭</li>
<li>实测效果（24G RTX3090）<br />
显存占用：约 21.8GB（模型 22.08GB + 6K INT8 KV 缓存≈0.8GB）<br />
推理速度：62-68 token/s（单轮对话，生成 1000 token）<br />
上下文长度：稳定 6144 Token，不会爆显存<br />
质量：和原版 BF16 模型几乎无差别，最坏情况 KL 散度仅 5.7，稳定性极佳</li>
<li>想要更长上下文？这样调整<br />
如果你需要跑 <strong>8192 Token（≈6000 汉字）</strong> 上下文，可以稍微 offload 2 层专家层到 CPU，对速度影响极小：<br />
bash<br />
运行<br />
python -m sglang.launch_server <br />
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf <br />
--model-format gguf <br />
--context-length 8192 <br />
--kv-cache-dtype int8 <br />
--mem-fraction-static 0.92 <br />
--chunked-prefill-enabled <br />
--enable-radix-cache <br />
--chat-template qwen3 <br />
--extra-body '{"enable_thinking": false}' <br />
--device-map '{"cuda:0": 30, "cpu": 2}' <br />
--port 8000<br />
显存占用：约 21.5GB<br />
推理速度：约 55-60 token/s（仅下降 10% 左右）<br />
上下文长度：稳定 8192 Token<br />
<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 注意：不要 offload 超过 4 层，否则速度会大幅下降。16K 以上上下文不建议尝试，会严重卡顿。<br />
三、FastLLM 最优配置（轻量备选，安装简单）<br />
FastLLM 是一个无依赖、轻量高效的推理框架，安装比 SGLang 简单，适合不想折腾环境的用户，速度比 SGLang 慢约 10-15%，但也足够日常使用。</li>
<li>一键启动命令<br />
bash<br />
运行<br />
./fastllm_server <br />
--model ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf <br />
--device cuda <br />
--ctx-size 6144 <br />
--cache-type-k q8_0 <br />
--cache-type-v q8_0 <br />
--flash-attn on <br />
--threads 8 <br />
--port 8000</li>
<li>关键参数解释<br />
表格<br />
参数	作用	为什么设这个值<br />
--cache-type-k q8_0	K 缓存精度	INT8 量化，显存减半<br />
--cache-type-v q8_0	V 缓存精度	和 K 缓存保持一致<br />
--flash-attn on	启用 Flash Attention	大幅提升长上下文的推理速度<br />
--threads 8	CPU 线程数	建议设为你的 CPU 核心数的一半</li>
<li>实测效果<br />
显存占用：约 22.1GB<br />
推理速度：55-60 token/s<br />
上下文长度：稳定 6144 Token<br />
四、不同场景的微调方案<br />
根据你的使用需求，可以在以下几个维度做微调：</li>
<li>追求极致速度<br />
上下文长度降到 4096 Token<br />
关闭分块预填充<br />
命令（SGLang）：<br />
bash<br />
运行<br />
python -m sglang.launch_server <br />
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf <br />
--model-format gguf <br />
--context-length 4096 <br />
--kv-cache-dtype int8 <br />
--mem-fraction-static 0.92 <br />
--enable-radix-cache <br />
--chat-template qwen3 <br />
--extra-body '{"enable_thinking": false}' <br />
--port 8000<br />
速度提升：约 70-75 token/s</li>
<li>追求最长上下文<br />
上下文长度设为 8192 Token<br />
offload 2 层专家层到 CPU<br />
命令见上文 SGLang 8K 配置<br />
速度下降：约 10%</li>
<li>追求极致质量<br />
关闭 KV 缓存量化（用 FP16）<br />
上下文长度降到 3072 Token<br />
命令（SGLang）：<br />
bash<br />
运行<br />
python -m sglang.launch_server <br />
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf <br />
--model-format gguf <br />
--context-length 3072 <br />
--kv-cache-dtype fp16 <br />
--mem-fraction-static 0.92 <br />
--enable-radix-cache <br />
--chat-template qwen3 <br />
--extra-body '{"enable_thinking": false}' <br />
--port 8000<br />
质量提升：几乎可以忽略，但显存占用会增加，上下文变短<br />
五、避坑指南（非常重要）<br />
不要用 CUDA 13.2：有严重的 gibberish bug，会生成乱码，建议用 CUDA 13.0 或 12.6<br />
驱动版本：建议升级到 580.82 以上，获得最好的 CUDA 支持<br />
系统内存：至少 32GB，最好 64GB，这样 offloading 的时候不会卡<br />
关闭 thinking 模式：除非你需要看模型的推理过程，否则会浪费大量 token 和速度<br />
不要用 FP8 KV 缓存：3090 不支持硬件加速，软件模拟会变慢<br />
六、最终推荐<br />
首选方案：用 SGLang 跑 6144 Token 上下文，开启 INT8 KV 缓存，不需要 offload 任何权重<br />
速度：62-68 token/s<br />
显存：21.8GB<br />
上下文：6K（≈4500 汉字）<br />
质量：几乎和原版无差别<br />
备选方案：用 FastLLM 跑 6144 Token 上下文，安装简单，速度也足够日常使用<br />
和 Hermes 对话完全够用：6K 上下文可以存几百轮对话历史，正常聊一整天都不会失忆，根本用不完。<br />
需要我给你一份 SGLang 的安装步骤，以及如何用 Open WebUI 连接到 SGLang 服务器的详细教程吗？</li>
</ol>
]]></description><link>https://lcz.me/topic/137/问完去睡觉-下半个月死磕qwen-3.6-35b-a3b.</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:08:19 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/137.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 14 May 2026 05:03:43 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Tue, 19 May 2026 05:19:37 GMT]]></title><description><![CDATA[<p dir="auto">我说怎么看着怪怪的</p>
]]></description><link>https://lcz.me/post/2532</link><guid isPermaLink="true">https://lcz.me/post/2532</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 05:19:37 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 16:17:03 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/wwcd" aria-label="Profile: wwcd">@<bdi>wwcd</bdi></a> 他已经被封号，我检查了这篇帖子，就是豆包写的。</p>
]]></description><link>https://lcz.me/post/1891</link><guid isPermaLink="true">https://lcz.me/post/1891</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 15 May 2026 16:17:03 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 15:51:02 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> <a href="/post/1533">说</a>:</p>
<p dir="auto">运行<br />
python -m sglang.launch_server<br />
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf<br />
--model-format gguf<br />
--context-length 6144<br />
--kv-cache-dtype int8<br />
--mem-fraction-static 0.92<br />
--chunked-prefill-enabled<br />
--enable-radix-cache<br />
--chat-template qwen3<br />
--extra-body '{"enable_thinking": false}'<br />
--port 8000<br />
每个参数的作用和为什么这么设<br />
表格<br />
参数 作用 为什么设这个值<br />
--model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径<br />
--model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型<br />
--context-length 6144 最大上下文长度 24G 显卡的黄金平衡点，再大就需要 offload 权重了<br />
--kv-cache-dtype int8 KV 缓存精度 3090 最优选择，显存减半，速度不变<br />
--mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存（约 22.08GB），刚好放下你的模型 + 6K INT8 KV 缓存<br />
--chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存，提升稳定性<br />
--enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存，速度提升 30% 以上<br />
--chat-template qwen3 聊天模板 正<br />
谢谢！！！<br />
我以为论坛都是大佬。原来云。云。云。<br />
下次看清楚了。<br />
必须是实测，分享之类的</p>
</blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a></p>
]]></description><link>https://lcz.me/post/1885</link><guid isPermaLink="true">https://lcz.me/post/1885</guid><dc:creator><![CDATA[wwcd]]></dc:creator><pubDate>Fri, 15 May 2026 15:51:02 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 15:46:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/wwcd" aria-label="Profile: wwcd">@<bdi>wwcd</bdi></a> 没看我的评论吗，我说这个像是豆包云的，不是真人的，这家伙直接禁言。</p>
]]></description><link>https://lcz.me/post/1883</link><guid isPermaLink="true">https://lcz.me/post/1883</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 15 May 2026 15:46:05 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 15:44:35 GMT]]></title><description><![CDATA[<p dir="auto">这 4 个参数 SGLang 0.5.11 实际安装版识别不到：</p>
<pre><code>| 指南写的参数 | SGLang 实际是否支持 |
|:---|:---|
| --model-format gguf | ❌ 没有这个参数（应改用 --load-format gguf） |
| --chunked-prefill-enabled | ❌ 没有（应改用 --chunked-prefill-size 512） |
| --enable-radix-cache | ❌ 没有（默认已开，可调 --radix-eviction-policy） |
| --extra-body | ❌ 不是启动参数（这是 API 请求体参数） |

那篇表格分析是理论推断，但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的，再试一次看能不能过最后那一关？
</code></pre>
<p dir="auto">╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────</p>
<p dir="auto">抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本？？</p>
]]></description><link>https://lcz.me/post/1880</link><guid isPermaLink="true">https://lcz.me/post/1880</guid><dc:creator><![CDATA[wwcd]]></dc:creator><pubDate>Fri, 15 May 2026 15:44:35 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 10:32:02 GMT]]></title><description><![CDATA[<p dir="auto">关于35B A3B vs 27B稠密模型，我说两句实际体验：</p>
<p dir="auto"><strong>35B A3B的优势场景：</strong></p>
<ul>
<li>超长上下文（128k+）—— 这是它真正的杀手锏。MoE架构下KV Cache比同参数稠密模型小很多，同样24G显存，27B最多跑64k上下文，35B A3B可以轻松跑128k甚至更多</li>
<li>多轮对话 + 大文档分析时优势明显</li>
<li>速度和27B Q4差不多（因为激活参数只有3B）</li>
</ul>
<p dir="auto"><strong>27B稠密模型的优势：</strong></p>
<ul>
<li>单轮推理质量确实更强，特别是编程和逻辑推理</li>
<li>但是上下文的短板很明显——24G显存下64k基本就到头了</li>
</ul>
<p dir="auto"><strong>所以我的建议是双模型策略：</strong></p>
<ul>
<li>日常快速问答、编程 → 用27B Q4（质量好，响应快）</li>
<li>需要分析大文档、长对话历史、处理hermes的长期任务 → 换35B A3B（吃长上下文不费显存）</li>
</ul>
<p dir="auto">两个都下载好，用hermes的模型切换功能或者llama.cpp的--model参数随时切，这才是正解。</p>
]]></description><link>https://lcz.me/post/1822</link><guid isPermaLink="true">https://lcz.me/post/1822</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 15 May 2026 10:32:02 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Fri, 15 May 2026 10:04:01 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fanwen1974" aria-label="Profile: fanwen1974">@<bdi>fanwen1974</bdi></a> 是的，我测试过好几次了。hermes更新13.0以后我也不死心，就是想用35b，但是他就是moe，moe就是不行，跟27b稠密型根本比不了。其实DeepSeek v4 flash或者pro都不如27b，因为他俩也是moe</p>
]]></description><link>https://lcz.me/post/1814</link><guid isPermaLink="true">https://lcz.me/post/1814</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Fri, 15 May 2026 10:04:01 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Thu, 14 May 2026 18:01:20 GMT]]></title><description><![CDATA[<p dir="auto">這個不要死磕，個人認爲最要死磕的是 Qwen-3.6 27B稠密模型 ，因爲。。。。。智力才夠。。我主要用在編程，Qwen-3.6 35BA3B專家混合模型，感覺編程有點弱。當然只是一般使用還行吧。</p>
]]></description><link>https://lcz.me/post/1699</link><guid isPermaLink="true">https://lcz.me/post/1699</guid><dc:creator><![CDATA[fanwen1974]]></dc:creator><pubDate>Thu, 14 May 2026 18:01:20 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Thu, 14 May 2026 13:20:20 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> 请教个问题，4k左右的ctx，死磕这货的意义在哪？</p>
]]></description><link>https://lcz.me/post/1605</link><guid isPermaLink="true">https://lcz.me/post/1605</guid><dc:creator><![CDATA[David Zhang]]></dc:creator><pubDate>Thu, 14 May 2026 13:20:20 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Thu, 14 May 2026 06:28:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> 我草，这特么怎么好像是豆包云的，你确定是你自己搞的吗？别瞎几把发垃圾内容啊。</p>
]]></description><link>https://lcz.me/post/1538</link><guid isPermaLink="true">https://lcz.me/post/1538</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 14 May 2026 06:28:42 GMT</pubDate></item><item><title><![CDATA[Reply to 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. on Thu, 14 May 2026 05:05:55 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/e384efb5-3f28-4fbd-ab80-46680e9b67b4.jpeg" alt="8873c4cf-7a7c-476f-9022-9ff20f5f1a1c-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/1535</link><guid isPermaLink="true">https://lcz.me/post/1535</guid><dc:creator><![CDATA[Jame Huang]]></dc:creator><pubDate>Thu, 14 May 2026 05:05:55 GMT</pubDate></item></channel></rss>