<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度]]></title><description><![CDATA[<p dir="auto">在昨天研究<a href="https://lcz.me/topic/519/rtx-pro-5000%E7%9A%84qwen3.6-27b%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/10">qwen3.6-27B的优化</a>时，看到了这个问题：<a href="https://github.com/ggml-org/llama.cpp/issues/22384" rel="nofollow ugc">server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba</a></p>
<p dir="auto">大概意思就是，因为llama.cpp的缓存巡回逻辑有问题，导致你n次调用大模型（n&gt;1）时，大概率llama.cpp找不到之前的对话，会从头再次prefill你的对话全文。</p>
<h3><strong>翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。</strong></h3>
<p dir="auto">更为悲惨的是：<br />
在5月份，llama.cpp制作组引入了另外一个checkpoint逻辑，使得缓存巡回性能再次下降：<a href="https://github.com/ggml-org/llama.cpp/commit/e98cb51" rel="nofollow ugc">Commit e98cb51<br />
</a></p>
<p dir="auto"><strong>经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell在运行qwen3.6-27B Q8时，上下文50K的长度下，每次请求LLM都会浪费40秒：</strong></p>
<pre><code>3 consecutive full re-processings logged:

┌───────────┬────────────────────┬───────┐
│ Turn │ Tokens reprocessed │ Time │
├───────────┼────────────────────┼───────┤
│ Task 2795 │ 67,608 │ 38.4s │
├───────────┼────────────────────┼───────┤
│ Task 3241 │ 71,211 │ 41.0s │
├───────────┼────────────────────┼───────┤
│ Task 3401 │ 71,105 │ 41.4s │
└───────────┴────────────────────┴───────┘

Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint
is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS.
</code></pre>
<h3>结论是，目前的llama.cpp+qwen3.6-27B这个组合，在Agent工具这个场景下，性能不可用。</h3>
<p dir="auto">目前此issues还是open状态，待修复。<a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: tony-wang">@<bdi>tony-wang</bdi></a></p>
]]></description><link>https://lcz.me/topic/532/llama.cpp目前有重大性能bug-checkpoint的巡回逻辑对于混合模型-比如qwen3.6-27b-无效-从而导致大概率每次对话都要prefill全文-严重拖慢速度</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:30 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/532.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 12 Jun 2026 01:25:52 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 07:19:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/brian" aria-label="Profile: Brian">@<bdi>Brian</bdi></a> 有空发帖分享下，能抄作业我才去折腾，最好是docker版本的 。</p>
]]></description><link>https://lcz.me/post/6902</link><guid isPermaLink="true">https://lcz.me/post/6902</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Mon, 15 Jun 2026 07:19:08 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 05:31:48 GMT]]></title><description><![CDATA[<p dir="auto">这个问题也困扰我很久，目前用chat template 补丁，还是有不少改善：<br />
<a href="https://lcz.me/post/5404">https://lcz.me/post/5404</a></p>
]]></description><link>https://lcz.me/post/6895</link><guid isPermaLink="true">https://lcz.me/post/6895</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Mon, 15 Jun 2026 05:31:48 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 04:51:38 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <a href="/post/6515">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/neo" aria-label="Profile: neo">@<bdi>neo</bdi></a> 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。</p>
</blockquote>
<p dir="auto">Sglang可以跑了，但是FP8 256k上下文速度还是不太行，还在测</p>
]]></description><link>https://lcz.me/post/6889</link><guid isPermaLink="true">https://lcz.me/post/6889</guid><dc:creator><![CDATA[Brian]]></dc:creator><pubDate>Mon, 15 Jun 2026 04:51:38 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:47:14 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/laobenxiong" aria-label="Profile: laobenxiong">@<bdi>laobenxiong</bdi></a> hermes每个N轮对话，会自动运行一个background_review，总结对话中的记忆和skill，在单slot中会导致system prompt与之前的不一致，所以prefill全部失效，而且hermes硬编码这个任务必须主模型亲自来完成，对于目前的llama.cpp版本来说确实不太友好。</p>
]]></description><link>https://lcz.me/post/6531</link><guid isPermaLink="true">https://lcz.me/post/6531</guid><dc:creator><![CDATA[neo]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:47:14 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:29:58 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 是的，本来第一目标也是sglang，奈何有目前无法逾越的问题，只能退而求其次了。</p>
]]></description><link>https://lcz.me/post/6528</link><guid isPermaLink="true">https://lcz.me/post/6528</guid><dc:creator><![CDATA[neo]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:29:58 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:25:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 大神不敢当，小学生而已，共同进步。你的情况我没有遇到，也许可以先关闭cuda-graph或前缀缓存启动一次试试，实在不行用我现在这个模型试下：shawnw3i/Qwen3.6-27B-AWQ-MTP，参考启动参数：<br />
vllm serve /path/to/models/Qwen3.6-27B-AWQ-MTP <br />
--tensor-parallel-size 2 <br />
--max-model-len 262144 <br />
--gpu-memory-utilization 0.88 <br />
--kv-cache-dtype fp8 <br />
--max-num-seqs 2 <br />
--reasoning-parser qwen3 <br />
--enable-auto-tool-choice <br />
--tool-call-parser qwen3_coder <br />
--port 9527 --host 0.0.0.0 <br />
--trust-remote-code <br />
--served-model-name Qwen3.6-27B-AWQ-MTP <br />
--max-num-batched-tokens 16384 <br />
--enable-prefix-caching <br />
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'<br />
另外如果要用turboguant（跟MTP有兼容性问题），现在的版本需要先合并issues里的两个补丁，或者等0.23版本，以上希望可以帮到你。</p>
]]></description><link>https://lcz.me/post/6527</link><guid isPermaLink="true">https://lcz.me/post/6527</guid><dc:creator><![CDATA[neo]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:25:52 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 14:09:00 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/neo" aria-label="Profile: neo">@<bdi>neo</bdi></a> 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。</p>
]]></description><link>https://lcz.me/post/6515</link><guid isPermaLink="true">https://lcz.me/post/6515</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 12 Jun 2026 14:09:00 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 07:58:51 GMT]]></title><description><![CDATA[<p dir="auto">vllm ,ollma, lm studio ,我最终选择了 lm studio ,因为简单,鼠标操作就行<br />
ollma 给你下载一堆的插件,让我卸载了,搞的我c盘都快满了.</p>
]]></description><link>https://lcz.me/post/6467</link><guid isPermaLink="true">https://lcz.me/post/6467</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Fri, 12 Jun 2026 07:58:51 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 07:07:36 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/neo" aria-label="Profile: neo">@<bdi>neo</bdi></a> vllm有个第一次启动导致OOM的问题，不知大神是否遇到过。我在运行vllm启用nvfp4模型时，会有一段时间内存、SSD读写直接爆炸，然后就崩溃了。</p>
]]></description><link>https://lcz.me/post/6456</link><guid isPermaLink="true">https://lcz.me/post/6456</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 12 Jun 2026 07:07:36 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 06:45:27 GMT]]></title><description><![CDATA[<p dir="auto">是的，这个问题困扰我挺久了，严重影响任务节奏，前几天换成VLLM后，目前感觉还挺不错，开启前缀缓存，hit百分之八九十，开MTP后推理速度跟llama相差无几，而且可以多任务并行，如果不想折腾推荐先用vllm。SGLANG运行Qwen3.6 INT4时目前兼容度还不是很好，有bug，注意避坑。</p>
]]></description><link>https://lcz.me/post/6455</link><guid isPermaLink="true">https://lcz.me/post/6455</guid><dc:creator><![CDATA[neo]]></dc:creator><pubDate>Fri, 12 Jun 2026 06:45:27 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 02:14:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 我在 7900xtx 上用 llama-server (vulkan, b9553) + <code>unsloth/Qwen3.6-27B-MTP-GGUF</code> + hermes 配 262144 context, 问题的症状和这个不一样. 我可以一个 session 顺利到达 &gt;200K 的上下文结束. 中间没有这里提到的 prefill 重填的问题(或者我没有注意到?). 我碰到的问题是, 任务结束以后, gpu还在运行, llama-server log 显示收到了一堆任务, 然后最后导致 ~200K 的 prefill 全部失效 且重新 prefill. 让 hermes 自己调查了一下 (让它直接监控 llama-server 的日志, 它再和自己的日志对比), 它说是 <code>creation_nudge_interval</code> 和 <code>nudge_interval</code> 导致的, 并建议我把它们置0 (disable).</p>
]]></description><link>https://lcz.me/post/6426</link><guid isPermaLink="true">https://lcz.me/post/6426</guid><dc:creator><![CDATA[laobenxiong]]></dc:creator><pubDate>Fri, 12 Jun 2026 02:14:09 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:39:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 有道理,学习了</p>
]]></description><link>https://lcz.me/post/6422</link><guid isPermaLink="true">https://lcz.me/post/6422</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:39:17 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:36:12 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 不够劲爆，我认为可以用，慢一点而已。而且不是有带缓存版本的吗？我需要解决问题的，而不是发现问题的内容。观众看：我解决了xx问题，而不是：我发现了xx问题。</p>
]]></description><link>https://lcz.me/post/6421</link><guid isPermaLink="true">https://lcz.me/post/6421</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:36:12 GMT</pubDate></item><item><title><![CDATA[Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:33:11 GMT]]></title><description><![CDATA[<p dir="auto">我觉得锤哥可以水一期视频了 <a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a></p>
]]></description><link>https://lcz.me/post/6420</link><guid isPermaLink="true">https://lcz.me/post/6420</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:33:11 GMT</pubDate></item></channel></rss>