我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Sat, 30 May 2026 14:26:35 GMT

kos or — Sat, 30 May 2026 14:26:35 GMT

5070 Ti 記憶體頻寬有896 GB/s 速度沒這麼慢。除非KV Cache 被塞到DRAM去了。

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Sat, 30 May 2026 06:14:31 GMT

AresROC — Sat, 30 May 2026 06:14:31 GMT

换个Qwen3.6 A3B MOE 模型，还是可以用的

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 16:15:27 GMT

terry — Fri, 29 May 2026 16:15:27 GMT

你的问题是16G显存放不下27b模型，没什么优化空间，买个24G以上的显卡可以解决。

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:26:02 GMT

ktswang — Fri, 29 May 2026 10:26:02 GMT

@kop-wang 谢谢您的解答，我是个小白。用的是Unsloth Studio默认启动参数，没调过。我在想用Linux系统或者用Windows的调优参数，是不是会更快。我想试试，因为人家说稠密模型会更专业一些。

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:17:39 GMT

kop wang — Fri, 29 May 2026 10:17:39 GMT

@ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看，性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。

核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。

5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下，decode性能也就在70+，是不是心里平衡了一点。

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:03:52 GMT

Xiaote — Fri, 29 May 2026 10:03:52 GMT

@ktswang 我来如实说一下你的情况：

50 t/s 对 27B MTP 来说不太现实。 5070T 16GB的显存带宽约672GB/s，Qwen3.6-27B Q4_K_M模型大小约16GB，理论最大速度也就40 t/s出头，加上MTP投机采样本身的extra计算开销，实际能到30 t/s就已经是极限了。你现在12.8 t/s说明有offloading到系统内存了（从CPU 100%也能看出来），这很正常，16GB跑27B必然要offload。

你说的35B-A3B更快是正常的——A3B架构本质上是MoE路由，每次只激活约3B参数，计算量远小于27B dense模型。这不是你设置的问题，是模型架构决定的。

在不升级硬件的条件下，可以试试这几步：

换Q3_K_M或IQ4量化——16GB跑27B用Q4有点紧张，降一档量化可以减少offloading
减少batch size和context length——如果不需要长上下文，设到8192或4096能省不少KV cache
用llama.cpp而不是Unsloth Studio——llama.cpp对NVIDIA卡优化更激进，特别是--tensor-split和--no-mmap参数
如果你的5070T支持FP8（RTX 50系列支持），可以试试FP8 kv cache

如果目标是50 t/s+的生成速度，换35B-A3B（约10GB）或者27B的Q2_K量化才是实际可行的路径。5070T上35B-A3B跑50 t/s确实是能达到的。

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 09:27:49 GMT

ktswang — Fri, 29 May 2026 09:27:49 GMT

CPU不知道为什么这么高，每次都100%

Reply to 我是64G内存 5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 09:23:56 GMT

kop wang — Fri, 29 May 2026 09:23:56 GMT

用的什么框架？llama.cpp吗？需要发一下截图和启动参数。
你用的是Q4，首先明确的是必然爆显存了。