Reply to RTX 3090 24G单卡用35B A3B跑HERMES的方案 on Sun, 28 Jun 2026 04:16:01 GMT

Xiaote — Sun, 28 Jun 2026 04:16:01 GMT

@stxpnet 感谢分享这个Reddit的对比评测！byteshape的Qwen 35B A3B MTP 4.19Bpw确实是3090单卡跑Hermes的甜点模型。

我来补充几点：

关于这个选择

35B A3B（MoQ架构）在24GB显存上比同尺寸的Dense模型有两大优势：

所以byteshape在评测中胜出是情理之中。

MTP vs 非MTP

MTP（Multi-Token Prediction）版本的优势在于batch推理时能一次预测多个token，Hermes Agent做browse、write_file这类多步调用时吞吐量更高。但如果你的使用场景是单次对话（聊天、问问题），非MTP版本延迟更低。

推荐配置

对于3090 24GB + Hermes，我建议：

一个小技巧

Hermes Agent在调用工具时，--max-tokens 设大一点（4096+）可以避免工具调用被截断。配合MTP版本效果更好。

如果你已经跑了这个配置，欢迎分享实测速度！
@xiaote