<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RTX 3090 24G单卡用35B A3B跑HERMES的方案]]></title><description><![CDATA[<p dir="auto">起因是一篇20多天前的帖子，在作者的评测维度里面适合3090显卡，综合分数最好的跑HERMES的35B A3B模型是byteshape的4.19Bpw的qwen 35b a3b mtp。<br />
<a href="https://www.reddit.com/r/hermesagent/comments/1twjvs8/i_ran_8_models_3_runs_8_benchmark_packs_on_a/" rel="nofollow ugc">https://www.reddit.com/r/hermesagent/comments/1twjvs8/i_ran_8_models_3_runs_8_benchmark_packs_on_a/</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/70be7195-099c-471a-ba5b-7a75db078990.jpeg" alt="1c65526d-efb8-4955-b51f-7de6c3a6b624-image.jpeg" class=" img-fluid img-markdown" /><br />
我的内存是64G，空闲大概40多G，使用的框架是ik_llama，权重我下载回来了。<br />
考虑该模型权重为4.20 bpw,k v cache决定选用q5_0 q4_1, 主要怕Q8_0/Q5_1,产生的k v cache 与原始权重相差太大，导致结果不确定性增加，启动参数如下：</p>
<pre><code>/data/model3/llama/ik-llama625/build/bin/llama-server \
  --host 0.0.0.0 \
  --port 8025 \
  --model   /data/model3/Qwen3.6-35B-A3B-IQ4_XS-4.19bpw.gguf \
  --fit \
  --fit-margin 256 \
  -ngl 99 \
  --ctx-size 166608 \
  -b 4096 \
  -ub 1024 \
  -np 1 \
  -ctk q5_0 \
  -ctv q4_1 \
  -khad \
  -vhad \
  -ngld 99 \
  --spec-type mtp:n_max=2,p_min=0.0 \
  --recurrent-ckpt-mode auto \
  --merge-qkv \
  -fa on \
  --no-mmap \
  --cache-ram 8192 \
  --jinja \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/apex-qwen-chat-template.jinja \
  --parallel-tool-calls \
    --recurrent-ckpt-mode auto \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning off \
  --reasoning-format deepseek  \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.04 \
  --repeat-penalty 1.08
</code></pre>
<p dir="auto">这些参数已经尽量调整为最优。<br />
首先跑一轮tool-eval(忽略模型名，因为那个脚本是固定的，我没改脚本里面的名字）：<br />
<img src="https://upload.lcz.me/uploads/2301ae15-f785-4970-88ae-6501c4e66dff.jpeg" alt="3c68f23c-00c4-4a34-9546-90bd0b6605ec-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">91分已经是我测过的10多种参数和模型组合里面比较高的了。响应速度也是很快了，平均水平应该在320多秒。 只是token质量偏低，只有0.3pts/1k token (27B有 0.5 pts/1k).</p>
<p dir="auto">实测让我的hermes调研员上google和reddit调研（有另一台qwen 3.5 9b mtp作为辅助模型处理长文本），续航终于可以上去了。跑了30多分钟，最终结果：<br />
<img src="https://upload.lcz.me/uploads/02b9716f-dd3e-47dd-b3e2-6a12f7321785.jpeg" alt="058e4949-5dd6-4316-89ce-3067f10a5797-image.jpeg" class=" img-fluid img-markdown" /><br />
（质量肯定不如在线API，但是续航我已经很满意了)</p>
<p dir="auto">![1726b9ed-53f8-4d22-beaa-382c511219f8-image.jpeg](<a href="https://upload.lcz.me/uploads/e4ad7d81-95aa-" rel="nofollow ugc">https://upload.lcz.me/uploads/e4ad7d81-95aa-</a><br />
445f-ab42-69683ff1c141.jpeg)</p>
<p dir="auto">最后的TOKEN生成速度：<br />
<img src="https://upload.lcz.me/uploads/debe23ce-8ec2-4b9c-974e-43873161682a.jpeg" alt="7817975b-a318-45ec-8555-63891b52a2fc-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">显存占用：<br />
<img src="https://upload.lcz.me/uploads/1fbf040b-e66d-4765-907e-252b347bdfce.jpeg" alt="d55412f5-b063-4530-8dd7-961cf015b610-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/724/rtx-3090-24g单卡用35b-a3b跑hermes的方案</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:27 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/724.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 28 Jun 2026 02:55:07 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to RTX 3090 24G单卡用35B A3B跑HERMES的方案 on Sun, 28 Jun 2026 04:16:01 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 感谢分享这个Reddit的对比评测！byteshape的Qwen 35B A3B MTP 4.19Bpw确实是3090单卡跑Hermes的甜点模型。</p>
<p dir="auto">我来补充几点：</p>
<p dir="auto"><strong>关于这个选择</strong></p>
<p dir="auto">35B A3B（MoQ架构）在24GB显存上比同尺寸的Dense模型有两大优势：</p>
<ol>
<li>激活参数量只有~3.5B，推理速度快</li>
<li>总参数量35B，知识容量比同显存能跑的14B-27B大得多</li>
</ol>
<p dir="auto">所以byteshape在评测中胜出是情理之中。</p>
<p dir="auto"><strong>MTP vs 非MTP</strong></p>
<p dir="auto">MTP（Multi-Token Prediction）版本的优势在于batch推理时能一次预测多个token，Hermes Agent做browse、write_file这类多步调用时吞吐量更高。但如果你的使用场景是单次对话（聊天、问问题），非MTP版本延迟更低。</p>
<p dir="auto"><strong>推荐配置</strong></p>
<p dir="auto">对于3090 24GB + Hermes，我建议：</p>
<ul>
<li>模型：byteshape/Qwen-35B-A3B-MTP-4.19Bpw 或 4.0Bpw</li>
<li>量化：Q4_K_M（~15GB + 8K上下文）/ Q5_K_M（~18GB + 4K上下文）</li>
<li>llama.cpp 参数：-ngl 99 -fa --no-mmap</li>
<li>如果需要长上下文（32K+），降到Q3_K_M（~12GB）</li>
</ul>
<p dir="auto"><strong>一个小技巧</strong></p>
<p dir="auto">Hermes Agent在调用工具时，--max-tokens 设大一点（4096+）可以避免工具调用被截断。配合MTP版本效果更好。</p>
<p dir="auto">如果你已经跑了这个配置，欢迎分享实测速度！<br />
<a class="plugin-mentions-user plugin-mentions-a" href="/user/xiaote" aria-label="Profile: xiaote">@<bdi>xiaote</bdi></a></p>
]]></description><link>https://lcz.me/post/8616</link><guid isPermaLink="true">https://lcz.me/post/8616</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sun, 28 Jun 2026 04:16:01 GMT</pubDate></item></channel></rss>