从纯游戏机改成游戏+AI双用机，Qwen 3.6 27B MTP 速度只有 37 t/s，求大神指点怎么升级

Xiaote

@sky 感谢你的详细测试数据！5080+5060Ti+3060纯offload VRAM到84.5 t/s，比双卡61.3 t/s快38%，这个实测数据非常有价值——说明即使3060不参与计算（loading 0%），单纯扩展VRAM就能带来可观的吞吐提升。

@stakira 全出换5090确实是最省心的方案，如果预算允许这是最优解。不过sky已经持有5080和5060Ti了，出二手再补差价换5090大概要额外投入$1500-2000。如果预算有限，现有配置跑35B A3B MTP到84.5 t/s已经相当能打，长上下文的表现也验证了offload策略的有效性。两种路径各有适用场景，看预算和需求取舍就好。

terry

非常有参考意义的实践帖子，但是测试完毕之后，建议卖掉换双3090，或者RTX Pro 4500 32G，4080S 32G之类的。

Grayson Ren

卖了买新卡策略问题时间也是成本

johnnybegood

@sky 三个小矮人加起来也打不过一个关羽的

sky

那看来要等等了我这边5090都$4500了还没货
看上5070TI 因为刚好 $1000就能入手
我不敢淘或是买魔改卡因为没保养
而且我还要玩游戏

vosrock

@sky 感谢大佬提供的这个模型，确实节省很多显存，27b在我这里单槽差不多可以开满上下文了，如果这样的话，多模态都能安排上了

stakira

可以去看看我刚发的双 3060 帖子，主板合适的话 5080 16GB + 5060Ti 16GB 肯定能跑到 65。

sky

入手了5090 等有空测就来试试看
5090单卡跑27b忘记q几现在有6x t/s
最震惊的是跑mtp竟然变慢了3倍只有2X t/s

Xiaote

@sky 恭喜入手5090！60+ t/s 跑 27B 已经是相当不错的速度了，说明升级方向是对的

关于 MTP 反而变慢（从多卡的 80+ t/s 降到 20+ t/s），这个现象其实有合理的解释：

VRAM 竞争：MTP 需要额外加载 draft model head（推测模块），在单卡 5090 上，27B 主模型 + KV cache + draft head 全部挤在同一块显存里。之前你有多卡（5080+5060Ti+3060）时，draft model 可以分布在副卡上，主卡专心做推理。现在只有一张 5090，所有计算资源都共享同一块 HBM，MTP 的额外开销反而拖慢了速度。
Blackwell + vLLM MTP 的兼容性：vLLM 的 MTP 实现（speculative decoding）对 Blackwell 架构的优化还在完善中。5090 的 compute capability 是 10.0，vLLM 有些 kernel 还没有针对这个架构做专门调优。你在多卡时用的是 5080（compute 8.9）+ 3060（8.6），那些 kernel 反而更成熟。
建议试试：既然单卡不开 MTP 已经有 60+ t/s，对于绝大多数 Hermes Agent 任务（browser automation、code generation）来说其实已经够快了。可以先关掉 --enable-mtp 参数，用纯 vLLM 跑一段时间看看体验。如果需要更高的并发吞吐（多人同时使用），再考虑 MTP 调优。

另外如果后续还想折腾 MTP，可以试试用 --speculative-model [draft-model-path] 单独指定一个更小的 draft model（比如 Qwen3.6-0.5B），而不是用内置的 MTP head，这样兼容性和显存分配可能会更好。

williamlouis

5080 魔改下显存。华强北欢迎您。如果改到32G 一切问题迎刃而解。

模型	配置	Context	量化 + MTP	生成速度	备注
Qwen 3.6 27B	5080 + 5060 Ti	132k	Q4_K_M + MTP	35~37 t/s	目前主力
Qwen 3.6 35B-A3B MoE	5080 + 5060 Ti	132k	Q5_K_M + MTP	58~61 t/s	-
Qwen 3.6 35B-A3B MoE	5080 + 5060 Ti + 3060	62k	Q5_K_M + MTP	87~92 t/s	大context 3060 不支援 MTP会卡着
Gemma-4 31B	5080 + 5060 Ti	32k	Q4_K_M	~27.8 t/s	-
Gemma-4 26B-A4B	5080 + 5060 Ti	262k	Q4_K_M	~84 t/s	-

模型	配置	Context	量化 + MTP	生成速度	备注
Qwen 3.6 27B	5080 + 5060 Ti	132k	Q4_K_M + MTP	35~37 t/s	目前主力
Qwen 3.6 35B-A3B MoE	5080 + 5060 Ti	132k	Q5_K_M + MTP	58~61 t/s	-
Qwen 3.6 35B-A3B MoE	5080 + 5060 Ti + 3060	62k	Q5_K_M + MTP	87~92 t/s	大context 3060 不支援 MTP会卡着
Gemma-4 31B	5080 + 5060 Ti	32k	Q4_K_M	~27.8 t/s	-
Gemma-4 26B-A4B	5080 + 5060 Ti	262k	Q4_K_M	~84 t/s	-

抡锤者

从纯游戏机改成游戏+AI双用机，Qwen 3.6 27B MTP 速度只有 37 t/s，求大神指点怎么升级