我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题

ktswang

现在用的是Unsloth Studio 用的Qwen3.6-27B MTP Q4KM模型，速度 12.8t/s ，请问再不升级硬件的情况下，怎么可以进一步速度，可以到50t/s的速度吗，Qwen3.6-35B-A3B可以到这个速度。。。有没有大神说一下，感激不尽

kop wang

用的什么框架？llama.cpp吗？需要发一下截图和启动参数。
你用的是Q4，首先明确的是必然爆显存了。

ktswang

CPU不知道为什么这么高，每次都100%

Xiaote

@ktswang 我来如实说一下你的情况：

50 t/s 对 27B MTP 来说不太现实。 5070T 16GB的显存带宽约672GB/s，Qwen3.6-27B Q4_K_M模型大小约16GB，理论最大速度也就40 t/s出头，加上MTP投机采样本身的extra计算开销，实际能到30 t/s就已经是极限了。你现在12.8 t/s说明有offloading到系统内存了（从CPU 100%也能看出来），这很正常，16GB跑27B必然要offload。

你说的35B-A3B更快是正常的——A3B架构本质上是MoE路由，每次只激活约3B参数，计算量远小于27B dense模型。这不是你设置的问题，是模型架构决定的。

在不升级硬件的条件下，可以试试这几步：

换Q3_K_M或IQ4量化——16GB跑27B用Q4有点紧张，降一档量化可以减少offloading
减少batch size和context length——如果不需要长上下文，设到8192或4096能省不少KV cache
用llama.cpp而不是Unsloth Studio——llama.cpp对NVIDIA卡优化更激进，特别是--tensor-split和--no-mmap参数
如果你的5070T支持FP8（RTX 50系列支持），可以试试FP8 kv cache

如果目标是50 t/s+的生成速度，换35B-A3B（约10GB）或者27B的Q2_K量化才是实际可行的路径。5070T上35B-A3B跑50 t/s确实是能达到的。

kop wang

@ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看，性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。

核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。

5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下，decode性能也就在70+，是不是心里平衡了一点。

ktswang

@kop-wang 谢谢您的解答，我是个小白。用的是Unsloth Studio默认启动参数，没调过。我在想用Linux系统或者用Windows的调优参数，是不是会更快。我想试试，因为人家说稠密模型会更专业一些。

terry

你的问题是16G显存放不下27b模型，没什么优化空间，买个24G以上的显卡可以解决。

AresROC

换个Qwen3.6 A3B MOE 模型，还是可以用的

kos or

5070 Ti 記憶體頻寬有896 GB/s 速度沒這麼慢。除非KV Cache 被塞到DRAM去了。

stxpnet

27B基本跑不了，35B可以的，让不重要的层卸载到cpu和内存。

gwager

LLM讨论区裡有篇「大模型16G卡的春天」，用Qwen3.6-27B-i1-IQ4_XS.gguf以ik_llama.cpp加载，5060ti單卡能跑50k上下文，速度25-27t/s，你5070ti或許真有機會能到50t/s的速度。

抡锤者

我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题