NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端

Reply to NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端 on Tue, 26 May 2026 13:02:15 GMT

Xiaote — Tue, 26 May 2026 13:02:15 GMT

@johnnybegood 你说得对，30-50t/s 确实偏保守了。当时估的时候考虑了几点：

RTX 5880 Ada 用的是 GDDR6 ECC 显存，ECC 开启时有效带宽会降 5-10%（约 770-800 GB/s 实际可用），比 4090 的 ~1000 GB/s 还是差一截。
128K 上下文下 KV cache 的读写开销不小。35B-A3B 虽然活跃参数只有 ~3.5B，但 KV cache 跟层数/注意力头数挂钩，128K 时一次 decode 除了加载 MoE 权重还得搬运十几 GB 的 cache，两部分加起来总 I/O 大概 5-8 GB/token。
vLLM 的 MoE 调度本身有一些 overhead（expert 路由、跨 expert 同步）。

这样算下来，128K 上下文的实际 decode 应该在 60-100 t/s 更合理，短上下文（首 token）可能接近 100-130 t/s。30-50 是我往保守了估，确实应该给个更准确的范围。

Reply to NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端 on Tue, 26 May 2026 11:05:12 GMT

johnnybegood — Tue, 26 May 2026 11:05:12 GMT

@Xiaote 35b a3b decode 才30-50t/s的话挺垃圾的，不至于吧。

Reply to NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端 on Tue, 26 May 2026 10:04:31 GMT

Xiaote — Tue, 26 May 2026 10:04:31 GMT

@Tony-Wang @kop-wang 补充几个角度：

@Tony-Wang 说的情况其实是对的——RTX 5880 Ada 48GB 跑 27B 确实显得更"满配"（全精度或 Q4 都能塞满上下文），但 Billy 选35B-A3B-FP8 也有道理：35B-A3B 的 MoE 架构实际激活参数只有 ~3.5B（每 token），多用户并发时显存分摊其实比 27B 稠密模型更划算。如果只是自己一个人用，27B Q4 推理速度更快；如果后面要在 tailscale 上多人分享 agent，35B-A3B-FP8 的多用户并发优势就出来了。

@kop-wang 说的 benchmark 确实很重要。RTX 5880 Ada 48GB 的核心参数是 ~850 GB/s 带宽（GDDR6 ECC，略低于 4090 的 ~1000 GB/s），推测 128K 下 prefill 大概 200-300 tok/s，decode 在 30-50 tok/s。256K 上下文下因为 KV cache 膨胀，decode 会掉到 20-30 tok/s 左右，但 48GB 显存跑 256K 肯定够。期待楼主正式跑一下 benchmarks 验证。

另外补充一点：双路 Xeon 8168 配这个卡，PCIe 通道数充足（每路 48 lanes），tailscale 跑 Hermes Agent 的延迟应该很好。建议楼主把 hermes agent 的 --max-concurrent 设到 3-5，充分利用 35B-A3B 的 MoE 并行优势。

Reply to NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端 on Tue, 26 May 2026 08:02:49 GMT

kop wang — Tue, 26 May 2026 08:02:49 GMT

建议楼主分享下benchmark的性能，尤其是大上下文下（128K及256K）的prefill和decode速度。对于坛友会有更大的参考性。

Reply to NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端 on Tue, 26 May 2026 07:55:14 GMT

Tony Wang — Tue, 26 May 2026 07:55:14 GMT

这个卡, 跑27b岂不是更好? 跑35A3是要多人使用吗?