<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent]]></title><description><![CDATA[<p dir="auto">先说下感受，256k上下文，速度是真的慢，但是做研究真是很细。</p>
<p dir="auto">同时偶然发现在线API虽快，但是比较粗糙，需要驾驭很好才行。</p>
<p dir="auto">但是本地Qwen3.6，推理能力极强，工具调用，加上联网检索，最终效果挺好。</p>
<p dir="auto">即使是模型和hermes都设置256k上下文，herems还会触发压缩，最终效果还是很够用的。</p>
<p dir="auto">折腾了很多，Vllm和sglang搞不定，用了deepseek claude codex都搞不定，不是工具的问题，是我一点都不懂。只会说看看社区有什么成功的方案去尝试（我TM社区是啥都不知道）。</p>
<p dir="auto">以下是llama cpp参数。问了AI 256k上下文，就是这个速度，不知道有没有好的优化方法。</p>
<p dir="auto"><strong>硬件：</strong> 双 AMD Radeon AI Pro R9700（各 32GB VRAM）+ Intel Xeon E5-2686 v4</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>参数</th>
<th>值</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>-m</code></td>
<td><code>Qwen3.6-27B-Q4_K_M.gguf</code></td>
<td>标准版模型</td>
</tr>
<tr>
<td><code>-ngl</code></td>
<td><code>99</code></td>
<td>全部层卸载到 GPU</td>
</tr>
<tr>
<td><code>-c</code></td>
<td><code>262144</code></td>
<td>262K 上下文（医疗文档长文本需要）</td>
</tr>
<tr>
<td><code>-np</code></td>
<td><code>1</code></td>
<td>单并行槽（避免 OOM）</td>
</tr>
<tr>
<td><code>--split-mode</code></td>
<td><code>layer</code></td>
<td>双卡按层切分（tensor 模式在 PCIe 瓶颈下更慢）</td>
</tr>
<tr>
<td><code>--cache-type-k/v</code></td>
<td><code>q8_0</code></td>
<td>KV cache 精度，保持质量</td>
</tr>
<tr>
<td><code>--cache-ram</code></td>
<td><code>0</code></td>
<td>禁用跨请求 prompt cache（规避 crash）</td>
</tr>
<tr>
<td><code>--no-cache-prompt</code></td>
<td>—</td>
<td>禁用 prompt cache</td>
</tr>
<tr>
<td><code>--mlock</code></td>
<td>—</td>
<td>锁内存防 swap</td>
</tr>
<tr>
<td><code>--defrag-thold</code></td>
<td><code>0.1</code></td>
<td>KV cache 碎片整理阈值</td>
</tr>
<tr>
<td><code>--reasoning off</code></td>
<td>—</td>
<td>关闭 thinking 模式</td>
</tr>
<tr>
<td><code>-fa on</code></td>
<td>—</td>
<td>Flash Attention</td>
</tr>
</tbody>
</table>
<p dir="auto">性能基准</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>指标</th>
<th>数值</th>
</tr>
</thead>
<tbody>
<tr>
<td>llama.cpp 版本</td>
<td>b9586</td>
</tr>
<tr>
<td>Decode 速度</td>
<td>~24 tok/s（MTP版）；~24 tok/s（标准版）</td>
</tr>
<tr>
<td>Prefill 速度</td>
<td>~562 tok/s（MTP版）；~21 tok/s（标准版，短 prompt）</td>
</tr>
<tr>
<td>tensor split 测试</td>
<td>19.4 tok/s（PCIe 瓶颈，不如 layer）</td>
</tr>
</tbody>
</table>
]]></description><link>https://lcz.me/topic/523/双ai-pro-r9700-32g-qwen-3.6-27b-q4-km-q8-kv-ubuntu24-hermes-agent</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 20:44:50 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/523.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 11 Jun 2026 07:12:27 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Fri, 12 Jun 2026 14:07:57 GMT]]></title><description><![CDATA[<p dir="auto">速度不正常， 用vulkan, mtp可以达到52tok/s,    用rocm 也可以达到45tok/s. 我说的是单卡的情况，双卡不清楚，但是不到20的速度肯定不正常。3.6 27b模型</p>
]]></description><link>https://lcz.me/post/6514</link><guid isPermaLink="true">https://lcz.me/post/6514</guid><dc:creator><![CDATA[sospda]]></dc:creator><pubDate>Fri, 12 Jun 2026 14:07:57 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Fri, 12 Jun 2026 09:41:30 GMT]]></title><description><![CDATA[<p dir="auto">你这个MTP的效果不对啊，我矿机5卡，MTP加速都有15%了</p>
]]></description><link>https://lcz.me/post/6480</link><guid isPermaLink="true">https://lcz.me/post/6480</guid><dc:creator><![CDATA[张哲]]></dc:creator><pubDate>Fri, 12 Jun 2026 09:41:30 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 22:29:44 GMT]]></title><description><![CDATA[<p dir="auto">我用兩張V100 32G, qwen3.6 27B Q8模型可以到4x, reasoning模式關閉感覺智力略降, 所以雖然會拖慢一點, 我還是開著. 參數如下:<br />
Environment=CUDA_DEVICE_ORDER=PCI_BUS_ID<br />
Environment=CUDA_VISIBLE_DEVICES=0,1<br />
ExecStart=llama-server <br />
-m /opt/models/qwen3.6-27b-mtp/Qwen3.6-27B-UD-Q8_K_XL.gguf <br />
--host 0.0.0.0 <br />
--port 9527 <br />
--alias qwen3.6-27b-ud-q8-xl <br />
-ngl 999 <br />
--split-mode layer <br />
--tensor-split 1,1 <br />
--ctx-size 400000 <br />
--parallel 2 <br />
--spec-type draft-mtp <br />
--spec-draft-n-max 2 <br />
--chat-template-file /opt/models/qwen3.6-27b-mtp/chat_template.jinja <br />
--cache-type-k q8_0 <br />
--cache-type-v q8_0 <br />
--flash-attn on <br />
--batch-size 1024 <br />
--ubatch-size 256 <br />
--no-mmap <br />
--cont-batching <br />
--jinja <br />
--metrics <br />
--no-context-shift <br />
--temp 0.15 <br />
--top-p 0.90 <br />
--top-k 40 <br />
--min-p 0.03 <br />
--repeat-last-n 512 <br />
--repeat-penalty 1.1<br />
Restart=always<br />
RestartSec=5</p>
<p dir="auto">[Install]<br />
WantedBy=multi-user.target</p>
]]></description><link>https://lcz.me/post/6392</link><guid isPermaLink="true">https://lcz.me/post/6392</guid><dc:creator><![CDATA[soop ladios]]></dc:creator><pubDate>Thu, 11 Jun 2026 22:29:44 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 14:07:22 GMT]]></title><description><![CDATA[<p dir="auto">至少运行Q6 最好Q8 模型，找支持MTP的模型，速度翻倍</p>
]]></description><link>https://lcz.me/post/6344</link><guid isPermaLink="true">https://lcz.me/post/6344</guid><dc:creator><![CDATA[asd2667]]></dc:creator><pubDate>Thu, 11 Jun 2026 14:07:22 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 13:34:20 GMT]]></title><description><![CDATA[<p dir="auto">最近请求性能（task 25136, ~71K tokens context）</p>
<pre><code> | 阶段            | 速度                    |                              
 |-----------------|-------------------------|                              
 | prompt 处理前期 | 1319 tok/s (16K tokens) |                              
 | prompt 处理中期 | 909 tok/s (49K tokens)  |                              
 | prompt 处理后期 | 577 tok/s (71K tokens)  |                              
 | 总 prompt 时间  | 123.87s / 71,419 tokens |                              
 | 生成速度        | 17.4 tok/s (稳定)       |
</code></pre>
<p dir="auto">当前运行状态</p>
<pre><code> | 指标       | GPU 0          | GPU 1          |                           
 |------------|----------------|----------------|                           
 | 温度       | 64°C           | 66°C           |                           
 | 功耗       | 205W / 300W    | 193W / 300W    |                           
 | VRAM       | 27.67 GB (80%) | 27.04 GB (79%) |                           
 | GPU 利用率 | 100%           | 100%           |                           
 | SCLK       | 3366 MHz       | 2973 MHz       |                           
                                                                            
 - 进程 PID: 1016915，已运行 ~4h                                            
 - 模型文件: /home/gaopy/models/Qwen3.6-27B-Q4_K_M.gguf (约 16 GB)          
 - 生成速度: 实测 ~17-22 tok/s (当前 71K context 时 17.4 tok/s)
</code></pre>
]]></description><link>https://lcz.me/post/6336</link><guid isPermaLink="true">https://lcz.me/post/6336</guid><dc:creator><![CDATA[Brian]]></dc:creator><pubDate>Thu, 11 Jun 2026 13:34:20 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 13:30:21 GMT]]></title><description><![CDATA[<p dir="auto">硬件环境</p>
<pre><code> | 项目     | 值                                         |                  
 |----------|--------------------------------------------|                  
 | GPU      | 2× AMD R9700 32GB (gfx1201, device 0x7551) |                  
 | 总显存   | 64 GB                                      |                  
 | ROCm     | 7.2.4 (AMD 官方 repo)                      |                  
 | PyTorch  | 2.10.0 + HIP 7.2.53211                     |                  
 | 系统内存 | 62 GB                                      |                  
 | OS       | Ubuntu, Linux 6.17.0-35                    |
</code></pre>
]]></description><link>https://lcz.me/post/6335</link><guid isPermaLink="true">https://lcz.me/post/6335</guid><dc:creator><![CDATA[Brian]]></dc:creator><pubDate>Thu, 11 Jun 2026 13:30:21 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 13:27:58 GMT]]></title><description><![CDATA[<pre><code>   -m /home/gaopy/models/Qwen3.6-27B-Q4_K_M.gguf \                          
   -ngl 99 \                                                                
   -c 262144 \                                                              
   --host 0.0.0.0 \                                                         
   --port 8080 \                                                            
   --reasoning off \                                                        
   -fa on \                                                                 
   -b 16384 \                                                               
   -ub 16384 \                                                              
   -np 1 \                                                                  
   --cache-type-k q8_0 \                                                    
   --cache-type-v q8_0 \                                                    
   --split-mode layer \                                                     
   --mlock \                                                                
   --no-cache-prompt \                                                      
   --cache-ram 0
</code></pre>
]]></description><link>https://lcz.me/post/6333</link><guid isPermaLink="true">https://lcz.me/post/6333</guid><dc:creator><![CDATA[Brian]]></dc:creator><pubDate>Thu, 11 Jun 2026 13:27:58 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 13:04:27 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/brian" aria-label="Profile: Brian">@<bdi>Brian</bdi></a> 关于256K上下文的优化，我补充几点经验：</p>
<ol>
<li>
<p dir="auto">KV cache量化是关键 — 27B Q4_K_M本身的模型权重约15GB（双R9700 32G刚好放下），但256K上下文的KV cache会吃掉大量显存。你可以在llama.cpp启动参数里加 <code>--cache-type-k q4_0</code> 和 <code>--cache-type-v q4_0</code>，把KV cache从默认的FP16压缩到Q4，KV cache显存占用直接降到1/4。配合 <code>--no-kv-offload</code> 把KV cache放到系统内存，模型权重独占显存，速度损失没有想象中那么大。</p>
</li>
<li>
<p dir="auto">双卡配置确认 — R9700实际就是W7900的变体，建议确认 <code>--tensor-split</code> 参数是否正确分配了负载。可以用 <code>--verbose</code> 启动看显存分配是否均衡。</p>
</li>
<li>
<p dir="auto">关于laobenxiong提到的关掉压缩 — 他说的有道理，Hermes的压缩用的是DeepSeek做摘要，确实会丢失细节。但关了压缩后，每次请求都要重新prefill完整的256K上下文，这是速度瓶颈的主要来源。你可以试试开prompt caching（llama.cpp的 <code>--no-prompt-cache</code> 默认是关闭kv缓存复用的）。</p>
</li>
<li>
<p dir="auto">Batch size微调 — 试试 <code>--ubatch-size 512</code> 配合 <code>--batch-size 2048</code>，对长上下文场景的吞吐有帮助。</p>
</li>
<li>
<p dir="auto">另外双R9700跑27B 256K，速度不可能太快，这是物理限制——大概4-6 tok/s是正常的。如果追求响应速度，可以缩减到128K上下文，速度会翻倍。</p>
</li>
</ol>
]]></description><link>https://lcz.me/post/6328</link><guid isPermaLink="true">https://lcz.me/post/6328</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 11 Jun 2026 13:04:27 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 13:00:47 GMT]]></title><description><![CDATA[<p dir="auto">置顶，请大佬解答下，下次上传点截图，方便分析。</p>
]]></description><link>https://lcz.me/post/6327</link><guid isPermaLink="true">https://lcz.me/post/6327</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 11 Jun 2026 13:00:47 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 12:58:29 GMT]]></title><description><![CDATA[<p dir="auto">为什么还用q4呢？最起码q6起步！</p>
]]></description><link>https://lcz.me/post/6326</link><guid isPermaLink="true">https://lcz.me/post/6326</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Thu, 11 Jun 2026 12:58:29 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 07:49:45 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/brian" aria-label="Profile: Brian">@<bdi>Brian</bdi></a> <a href="/post/6276">说</a>:</p>
<p dir="auto">即使是模型和hermes都设置256k上下文，herems还会触发压缩，最终效果还是很够用的</p>
</blockquote>
<p dir="auto">我现在把压缩关闭了. 首先压缩效果不一定好(我让hermes调deepseek v4 flash做压缩, 发现压缩以后好多信息都丢了), 另外, 压缩以后所有 prefill 要重建, 既花时间, 有没有啥信息含量. 所以干脆disable it. context 快到头了就 /new 一个, hermes自己记住所有的对话, 在新对话里提一下"我们以前/刚刚聊过xxx", 它自己就会从数据库里去找. 我赶脚这个比压缩还靠谱.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/ad355892-91a8-4237-95f3-3d26f74cbacd.jpeg" alt="f33371a2-d0b8-424a-b6cf-fb1c8f6e5deb-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6280</link><guid isPermaLink="true">https://lcz.me/post/6280</guid><dc:creator><![CDATA[laobenxiong]]></dc:creator><pubDate>Thu, 11 Jun 2026 07:49:45 GMT</pubDate></item><item><title><![CDATA[Reply to 双AI Pro R9700 32g，Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent on Thu, 11 Jun 2026 07:39:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/brian" aria-label="Profile: Brian">@<bdi>Brian</bdi></a>  如果你对"靠谱"要求高的话, 据说 reasoning on 会提高能力, 还有就是把温度调低到 0.6 左右.</p>
]]></description><link>https://lcz.me/post/6279</link><guid isPermaLink="true">https://lcz.me/post/6279</guid><dc:creator><![CDATA[laobenxiong]]></dc:creator><pubDate>Thu, 11 Jun 2026 07:39:05 GMT</pubDate></item></channel></rss>