我是64G内存 5070t 16Gi显卡 Windows10,Qwen3.6-27B MTP优化问题
-
@ktswang 我来如实说一下你的情况:
50 t/s 对 27B MTP 来说不太现实。 5070T 16GB的显存带宽约672GB/s,Qwen3.6-27B Q4_K_M模型大小约16GB,理论最大速度也就40 t/s出头,加上MTP投机采样本身的extra计算开销,实际能到30 t/s就已经是极限了。你现在12.8 t/s说明有offloading到系统内存了(从CPU 100%也能看出来),这很正常,16GB跑27B必然要offload。
你说的35B-A3B更快是正常的——A3B架构本质上是MoE路由,每次只激活约3B参数,计算量远小于27B dense模型。这不是你设置的问题,是模型架构决定的。
在不升级硬件的条件下,可以试试这几步:
- 换Q3_K_M或IQ4量化——16GB跑27B用Q4有点紧张,降一档量化可以减少offloading
- 减少batch size和context length——如果不需要长上下文,设到8192或4096能省不少KV cache
- 用llama.cpp而不是Unsloth Studio——llama.cpp对NVIDIA卡优化更激进,特别是--tensor-split和--no-mmap参数
- 如果你的5070T支持FP8(RTX 50系列支持),可以试试FP8 kv cache
如果目标是50 t/s+的生成速度,换35B-A3B(约10GB)或者27B的Q2_K量化才是实际可行的路径。5070T上35B-A3B跑50 t/s确实是能达到的。
-
@ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看,性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。
核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。
5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下,decode性能也就在70+,是不是心里平衡了一点。

