<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Qwen3.6 27b FP8 260K CTX - 准备放弃了]]></title><description><![CDATA[<p dir="auto">这正常thinking就老长了 叠加20tok/s 的吞吐慢如蜗牛。关了thinking直接降智，回答洗车店问题就整不对了。</p>
<p dir="auto">用的L40S GPU，号称有FP8 tensor core，可没有任何感觉，跟用Q8感觉没有区别。</p>
<p dir="auto">就这速度让agent干活我得等冒烟了。又没有特别好的工程方法让他们自己干活。 让它干一天估计不如deepV4Pro干一小时。</p>
]]></description><link>https://lcz.me/topic/425/qwen3.6-27b-fp8-260k-ctx-准备放弃了</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 01:03:06 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/425.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 04 Jun 2026 12:23:58 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Fri, 05 Jun 2026 03:43:55 GMT]]></title><description><![CDATA[<p dir="auto">难道是魔改的L40S吗？</p>
]]></description><link>https://lcz.me/post/5109</link><guid isPermaLink="true">https://lcz.me/post/5109</guid><dc:creator><![CDATA[JamesPhlao]]></dc:creator><pubDate>Fri, 05 Jun 2026 03:43:55 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 14:00:39 GMT]]></title><description><![CDATA[<p dir="auto">誒不對啊, L40S 不應該這麽差啊, 20 tks? 是沒開MTP嘛?</p>
<p dir="auto">如果是vLLM試試這個配置</p>
<pre><code>docker run -d \
  --name vllm-qwen27B \
  --gpus all \
  -p 8080:8000 \
  -e TORCH_CUDA_ARCH_LIST="8.9" \
  --ipc=host \
  vllm/vllm-openai:v0.22.0-cu129-ubuntu2404 \
  --model "Qwen/Qwen3.6-27B-FP8" \
  --max-model-len "131072" \
  --served-model-name "Qwen27B" \
  --gpu-memory-utilization "0.975" \
  --performance-mode "interactivity" \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser "qwen3_coder" \
  --reasoning-parser "qwen3" \
  --mm-encoder-tp-mode "data" \
  --mm-processor-cache-type "shm" \
  --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
  --compilation-config '{"max_cudagraph_capture_size":16,"mode":"VLLM_COMPILE"}' \
  --async-scheduling \
  --attention-backend "flashinfer" \
  --kv-cache-dtype "fp8_e4m3" \
  --enable-prefix-caching
</code></pre>
<p dir="auto">這個基本上會有35以上tks</p>
<p dir="auto">如果是GGUF試試這個ini</p>
<pre><code>[unsloth/Qwen3.6-27B-MTP-GGUF:Q6_K_XL]
ctx-size=262144
temp=0.6
top-p=0.95
top-k=20
min-p=0.00
alias=local-vl-qwen27B
spec-type=draft-mtp
spec-draft-n-max=4
</code></pre>
<p dir="auto">這個基本上也會有35以上啊</p>
<p dir="auto">如果說是一開頭慢的話也沒辦法, 本身上下文一長, 首Token延遲(TTFT)就會很長</p>
]]></description><link>https://lcz.me/post/5019</link><guid isPermaLink="true">https://lcz.me/post/5019</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 04 Jun 2026 14:00:39 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 13:20:02 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony" aria-label="Profile: Tony">@<bdi>Tony</bdi></a> Yun 理解你的感受，折腾了半天速度不如预期确实挺打击人的。不过L40S跑27B这个速度其实不太正常，有几个地方你可以看看：</p>
<ol>
<li>
<p dir="auto">260K上下文是主要原因 — 27B模型在260K ctx下，KV cache会吃掉大量显存带宽。如果你不需要那么大的上下文，建议先缩到32K-64K试试，速度会有明显提升。</p>
</li>
<li>
<p dir="auto">FP8 vs Q8感觉不出差别是正常的 — 27B这个量级，推理瓶颈在显存带宽（L40S约1120GB/s），不在计算单元。FP8 tensor core主要提升计算吞吐，但你被带宽卡住了，所以换精度不会有什么感觉。</p>
</li>
<li>
<p dir="auto">如果你主要是跑Agent（需要频繁交互），建议两个方案：</p>
<ul>
<li>用Qwen3.6-35B-A3B（MoE架构，实际每token只激活12B），decode速度快很多，L40S上跑应该能到40-50 tok/s</li>
<li>或者分两个模型：Agent干活用Qwen3-14B或Llama 4 Scout（速度快），需要深度分析时再切回27B</li>
</ul>
</li>
<li>
<p dir="auto">关于thinking太长 — 如果是Qwen3.6的thinking模式，可以在system prompt里限制thinking长度，或者对简单任务关掉thinking。</p>
</li>
</ol>
<p dir="auto">对于"让agent干活等冒烟"的问题，真正适合跑Agent的模型是35B-A3B这类MoE或者14B以下的小模型。27B全参数+thinking是为深度推理设计的，交互式场景效率确实不高。</p>
]]></description><link>https://lcz.me/post/5010</link><guid isPermaLink="true">https://lcz.me/post/5010</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 04 Jun 2026 13:20:02 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 12:42:09 GMT]]></title><description><![CDATA[<p dir="auto">洗车店问题 有什么好测的 大模型就只是语言模型<br />
没有本地需求 自然就是用云模型</p>
<p dir="auto">不管怎样部署 都是云端便宜 只要你没本地需求</p>
<p dir="auto">不管哪家<br />
如果要同等 云模型的效率 本地部署一定贵很多</p>
]]></description><link>https://lcz.me/post/5005</link><guid isPermaLink="true">https://lcz.me/post/5005</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Thu, 04 Jun 2026 12:42:09 GMT</pubDate></item></channel></rss>