【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

ezios

hermes使用该模型完成的：
屏幕截图_19-5-2026_175554_192.168.1.10.jpeg

Xiaote

@ezios 厉害了！4060 8G跑起35B A3B MTP模型，这个成果对同样用低显存卡入门的玩家很有参考价值！

想请教几个数据点：

上下文长度能开到多少？8G显存跑13.7GB的GGUF，应该是走mmap内存映射、系统内存和显存协同工作吧？
生成速度大概多少t/s？35B A3B虽然总参数量大，但每次只激活约3.5B参数，推理速度应该不会太慢
Hermes Agent接这个模型，指令跟随和工具调用表现怎么样？

35B A3B这个MoE架构其实对低显存场景挺友好的——推理时只激活一个专家，显存压力比同尺寸稠密模型小很多。你这套4060+35B A3B的组合，可以说是8G显存的毕业配置了，期待更多实测分享！

terry

我怎么感觉我被啪啪打脸，4060 8G还能玩。

ezios

@terry 哈哈手里只有4060，每天看视频想办法，不过也就勉强一乐，还是得上大显存

terry

@ezios 这要是勉强，我会置顶吗？

Tide

@ezios 大神,膜拜.8G都跑起了35b a3b

ezios

@terry

ezios

@Tide 找对方向你也可以的，这两天正好赶上新技术红利了，你也可以试试这个模型

Tiger

卧槽，服了！！这几天晚上回来试试。

R-simi Kangtao

RTX4060, 8GB 可以跑 35B-A3B , 很牛逼！~ 分享我的设置，希望有大神指点如果还能优化。

Hermes Agent 基准测试结果
测试日期： 2026-05-20
模型： Qwen3.6-35B-A3B-UD-Q3_K_XL.gguf
llama.cpp 参数： -t 32 -tb 512 -b 4096 -ub 2048 -c 131072 -ngl 99 -fa on

性能摘要
组件/测试指标结果
llama.cpp Short TPS 20 tokens 9.04 tok/s
llama.cpp Medium TPS 120 tokens 64.05 tok/s
llama.cpp Long TPS 250 tokens 65.71 tok/s
llama.cpp Server TPS (流式) 服务端 71.05 tok/s
llama.cpp TTFT 首 token 延迟 106.8 ms
llama.cpp 生成时间 (流式) 流式 1689.0 ms
WebUI 端到端延迟完整响应 2707.6 ms
平均 llama.cpp TPS 综合 52.46 tok/s
关键发现
llama.cpp 服务端 TPS 71.05 tok/s — 符合预期性能水平
TTFT 极低 (106.8ms) — KV cache 预填充效率高
笔记本： Aftershock MX-16 Pro, RTX5090,24GB，

想把模型换MTP的 --》 https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF （Q3_K_XL)
升级llama.cpp to support MTP, 这样能够提升吗？

terry

@R-simi-Kangtao 非常好，低显存的用户有玩hermes的可能了。

Tide

@ezios 这是必须的

ezios

@R-simi-Kangtao 你可以试一下我这个模型，我认为对于你的卡是有提升的，对于4060提升有限

R-simi Kangtao

@ezios, 下载中。。。让我试试， Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf - 14.3GB, 应该能快点，我可以加上下文了。哈哈，我测看看

R-simi Kangtao

果然翻倍提升，我还加上下文，感激@ezios ，加个MTP提速不少

Hermes Agent + WebUI 性能测试报告
环境配置
项目值
模型 Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf (MoE, Q3_K_XL, ~16.8 GB)
GPU NVIDIA RTX 5090 Laptop (24GB GDDR7), 19.1 GB / 69% / 68°C
CPU Intel Core Ultra 9 275HX (24 threads)
Server llama.cpp built-in server (port 8081)
关键参数 -ngl 99 -t 24 -tb 512 -b 2048 -ub 1024 -fa on -c 131072
MTP draft-mtp (n_max=4, n_min=2, p_split=0.15)
非流式请求性能 (Server-side Timings)
测试 Prompt TPS Gen TPS Prompt ms Gen ms
Short (5 tok) 264.45 68.11 71.8 132.1
Medium (68 tok) 581.34 121.99 117.0 983.7
Long (122 tok) 822.52 111.12 148.3 1799.8
观察： Prompt TPS 随输入长度增长（581→822），Gen TPS 稳定在 111-122 tok/s。

流式请求性能 (TTFT + Streaming TPS)
测试 TTFT (ms) Gen Tokens Stream TPS Wall (s)
Short (1-2 sent.) 2546.4 21 116.11 2.727
Medium (5 bullets) 161.9 174 127.63 1.525
Long (~150 wrd) 173.0 202 115.26 1.926
Extended (~200 wrd) 144.7 295 96.59 3.199
观察： TTFT 在 145-2546 ms 范围波动（短回复因首 token 初始化开销更大），稳定流式 TPS 约 97-128 tok/s。

关键指标汇总
指标值
非流式 Gen TPS (avg) 116.56 tok/s
流式 TPS (avg) 113.90 tok/s
TTFT (avg) 756.5 ms
TTFT 范围 144.7 - 2546.4 ms
Token 间隔 ~8-10 ms/token
与历史基线对比 (MTP 收益)
指标历史 (非MTP) 当前 (MTP) 变化
Prompt TPS (cold) 73.13 264-822 +55% to +1030%
Gen TPS (cold) 65.93 68-122 +3% to +85%
Gen TPS (stream avg) 66.62 114-128 +71% to +92%
TTFB 11.44s 0.14-2.5s -80% to -99%
结论： MTP (Multi-Token Prediction) 带来了显著的性能提升，尤其是首 token 延迟降低超过一个数量级，流式生成速度提升约 70-92%。WebUI 用户体验显著改善 — 更快看到首 token，后续 token 流更流畅。

WebUI 集成说明
流式模式：用户看到首 token 的时间 = TTFT，之后以 Stream TPS 速率逐 token 显示
非流式模式：用户等待完整响应（prompt + generation 总和）
WebUI 总时间 ≈ TTFT + generation time + network overhead

williamlouis

重点在这 GPT5.5 CHAT。说明 AI 大厂互殴对大家是个好事。Gmini 的主要对手发力了。

Tony Hu

感谢指明道路，我试试我的台式机看跑起来的效果怎么样。

frank lee

零度解说最新的视频说他的3070 8g 都可以跑这个模型还是多模态可以视频，效果很好可以有25t/s，写代码效果都不错。其实主要用来cpu 计算开了20个线程。

williamlouis

@Tony-Hu 期待你的回复

Tony Hu

为啥我的跑的那么拉跨？配置基本都参考你的。看后台的token只有个位数/s 是哪里设置有问题吗？

抡锤者

【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

Qwen3.6 35B A3B APEX-MTP 本地运行测试总结

1. 测试模型

2. 运行方式

3. 台式机测试环境

3.1 硬件配置

3.2 台式机 llama.cpp 预设

3.3 台式机表现

3.4 台式机定位

4. 笔记本测试环境

4.1 硬件配置

4.2 笔记本 llama.cpp 预设

4.3 笔记本表现

4.4 笔记本变慢的主要原因

4.5 笔记本定位

5. 关键参数理解

5.1 `ctx-size`

5.2 `predict`

5.3 `n-cpu-moe`

5.4 MTP

5.5 KV Cache

5.6 `parallel`

6. Hermes 接入结论

6.1 接入地址

6.2 Hermes 推荐使用方式

6.3 Hermes 性能瓶颈

7. 台式机与笔记本分工建议

7.1 台式机

7.2 笔记本

8. 最终结论

9. 后续可继续优化方向

抡锤者

【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

Qwen3.6 35B A3B APEX-MTP 本地运行测试总结

1. 测试模型

2. 运行方式

3. 台式机测试环境

3.1 硬件配置

3.2 台式机 llama.cpp 预设

3.3 台式机表现

3.4 台式机定位

4. 笔记本测试环境

4.1 硬件配置

4.2 笔记本 llama.cpp 预设

4.3 笔记本表现

4.4 笔记本变慢的主要原因

4.5 笔记本定位

5. 关键参数理解

5.1 ctx-size

5.2 predict

5.3 n-cpu-moe

5.4 MTP

5.5 KV Cache

5.6 parallel

6. Hermes 接入结论

6.1 接入地址

6.2 Hermes 推荐使用方式

6.3 Hermes 性能瓶颈

7. 台式机与笔记本分工建议

7.1 台式机

7.2 笔记本

8. 最终结论

9. 后续可继续优化方向

5.1 `ctx-size`

5.2 `predict`

5.3 `n-cpu-moe`

5.6 `parallel`