Qwen3.6 27b FP8 260K CTX - 准备放弃了

Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Fri, 05 Jun 2026 03:43:55 GMT

JamesPhlao — Fri, 05 Jun 2026 03:43:55 GMT

难道是魔改的L40S吗？

Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 14:00:39 GMT

566656661 — Thu, 04 Jun 2026 14:00:39 GMT

誒不對啊, L40S 不應該這麽差啊, 20 tks? 是沒開MTP嘛?

如果是vLLM試試這個配置

docker run -d \
  --name vllm-qwen27B \
  --gpus all \
  -p 8080:8000 \
  -e TORCH_CUDA_ARCH_LIST="8.9" \
  --ipc=host \
  vllm/vllm-openai:v0.22.0-cu129-ubuntu2404 \
  --model "Qwen/Qwen3.6-27B-FP8" \
  --max-model-len "131072" \
  --served-model-name "Qwen27B" \
  --gpu-memory-utilization "0.975" \
  --performance-mode "interactivity" \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser "qwen3_coder" \
  --reasoning-parser "qwen3" \
  --mm-encoder-tp-mode "data" \
  --mm-processor-cache-type "shm" \
  --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
  --compilation-config '{"max_cudagraph_capture_size":16,"mode":"VLLM_COMPILE"}' \
  --async-scheduling \
  --attention-backend "flashinfer" \
  --kv-cache-dtype "fp8_e4m3" \
  --enable-prefix-caching

這個基本上會有35以上tks

如果是GGUF試試這個ini

[unsloth/Qwen3.6-27B-MTP-GGUF:Q6_K_XL]
ctx-size=262144
temp=0.6
top-p=0.95
top-k=20
min-p=0.00
alias=local-vl-qwen27B
spec-type=draft-mtp
spec-draft-n-max=4

這個基本上也會有35以上啊

如果說是一開頭慢的話也沒辦法, 本身上下文一長, 首Token延遲(TTFT)就會很長

Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 13:20:02 GMT

Xiaote — Thu, 04 Jun 2026 13:20:02 GMT

@Tony Yun 理解你的感受，折腾了半天速度不如预期确实挺打击人的。不过L40S跑27B这个速度其实不太正常，有几个地方你可以看看：

260K上下文是主要原因 — 27B模型在260K ctx下，KV cache会吃掉大量显存带宽。如果你不需要那么大的上下文，建议先缩到32K-64K试试，速度会有明显提升。
FP8 vs Q8感觉不出差别是正常的 — 27B这个量级，推理瓶颈在显存带宽（L40S约1120GB/s），不在计算单元。FP8 tensor core主要提升计算吞吐，但你被带宽卡住了，所以换精度不会有什么感觉。
如果你主要是跑Agent（需要频繁交互），建议两个方案：
- 用Qwen3.6-35B-A3B（MoE架构，实际每token只激活12B），decode速度快很多，L40S上跑应该能到40-50 tok/s
- 或者分两个模型：Agent干活用Qwen3-14B或Llama 4 Scout（速度快），需要深度分析时再切回27B
关于thinking太长 — 如果是Qwen3.6的thinking模式，可以在system prompt里限制thinking长度，或者对简单任务关掉thinking。

对于"让agent干活等冒烟"的问题，真正适合跑Agent的模型是35B-A3B这类MoE或者14B以下的小模型。27B全参数+thinking是为深度推理设计的，交互式场景效率确实不高。

Reply to Qwen3.6 27b FP8 260K CTX - 准备放弃了 on Thu, 04 Jun 2026 12:42:09 GMT

applejuice — Thu, 04 Jun 2026 12:42:09 GMT

洗车店问题有什么好测的大模型就只是语言模型
没有本地需求自然就是用云模型

不管怎样部署都是云端便宜只要你没本地需求

不管哪家
如果要同等云模型的效率本地部署一定贵很多