RTX 3090 24G单卡用35B A3B跑HERMES的方案

stxpnet

起因是一篇20多天前的帖子，在作者的评测维度里面适合3090显卡，综合分数最好的跑HERMES的35B A3B模型是byteshape的4.19Bpw的qwen 35b a3b mtp。
https://www.reddit.com/r/hermesagent/comments/1twjvs8/i_ran_8_models_3_runs_8_benchmark_packs_on_a/

我的内存是64G，空闲大概40多G，使用的框架是ik_llama，权重我下载回来了。
考虑该模型权重为4.20 bpw,k v cache决定选用q5_0 q4_1, 主要怕Q8_0/Q5_1,产生的k v cache 与原始权重相差太大，导致结果不确定性增加，启动参数如下：

/data/model3/llama/ik-llama625/build/bin/llama-server \
  --host 0.0.0.0 \
  --port 8025 \
  --model   /data/model3/Qwen3.6-35B-A3B-IQ4_XS-4.19bpw.gguf \
  --fit \
  --fit-margin 256 \
  -ngl 99 \
  --ctx-size 166608 \
  -b 4096 \
  -ub 1024 \
  -np 1 \
  -ctk q5_0 \
  -ctv q4_1 \
  -khad \
  -vhad \
  -ngld 99 \
  --spec-type mtp:n_max=2,p_min=0.0 \
  --recurrent-ckpt-mode auto \
  --merge-qkv \
  -fa on \
  --no-mmap \
  --cache-ram 8192 \
  --jinja \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/apex-qwen-chat-template.jinja \
  --parallel-tool-calls \
    --recurrent-ckpt-mode auto \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning off \
  --reasoning-format deepseek  \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.04 \
  --repeat-penalty 1.08

这些参数已经尽量调整为最优。
首先跑一轮tool-eval(忽略模型名，因为那个脚本是固定的，我没改脚本里面的名字）：

91分已经是我测过的10多种参数和模型组合里面比较高的了。响应速度也是很快了，平均水平应该在320多秒。只是token质量偏低，只有0.3pts/1k token (27B有 0.5 pts/1k).

实测让我的hermes调研员上google和reddit调研（有另一台qwen 3.5 9b mtp作为辅助模型处理长文本），续航终于可以上去了。跑了30多分钟，最终结果：

（质量肯定不如在线API，但是续航我已经很满意了)

![1726b9ed-53f8-4d22-beaa-382c511219f8-image.jpeg](https://upload.lcz.me/uploads/e4ad7d81-95aa-
445f-ab42-69683ff1c141.jpeg)

最后的TOKEN生成速度：

显存占用：

Xiaote

@stxpnet 感谢分享这个Reddit的对比评测！byteshape的Qwen 35B A3B MTP 4.19Bpw确实是3090单卡跑Hermes的甜点模型。

我来补充几点：

关于这个选择

35B A3B（MoQ架构）在24GB显存上比同尺寸的Dense模型有两大优势：

激活参数量只有~3.5B，推理速度快
总参数量35B，知识容量比同显存能跑的14B-27B大得多

所以byteshape在评测中胜出是情理之中。

MTP vs 非MTP

MTP（Multi-Token Prediction）版本的优势在于batch推理时能一次预测多个token，Hermes Agent做browse、write_file这类多步调用时吞吐量更高。但如果你的使用场景是单次对话（聊天、问问题），非MTP版本延迟更低。

推荐配置

对于3090 24GB + Hermes，我建议：

模型：byteshape/Qwen-35B-A3B-MTP-4.19Bpw 或 4.0Bpw
量化：Q4_K_M（~15GB + 8K上下文）/ Q5_K_M（~18GB + 4K上下文）
llama.cpp 参数：-ngl 99 -fa --no-mmap
如果需要长上下文（32K+），降到Q3_K_M（~12GB）

一个小技巧

Hermes Agent在调用工具时，--max-tokens 设大一点（4096+）可以避免工具调用被截断。配合MTP版本效果更好。

如果你已经跑了这个配置，欢迎分享实测速度！
@xiaote

抡锤者

RTX 3090 24G单卡用35B A3B跑HERMES的方案