llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 07:19:08 GMT

terry — Mon, 15 Jun 2026 07:19:08 GMT

@Brian 有空发帖分享下，能抄作业我才去折腾，最好是docker版本的。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 05:31:48 GMT

Colt — Mon, 15 Jun 2026 05:31:48 GMT

这个问题也困扰我很久，目前用chat template 补丁，还是有不少改善：
https://lcz.me/post/5404

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Mon, 15 Jun 2026 04:51:38 GMT

Brian — Mon, 15 Jun 2026 04:51:38 GMT

@terry 说:

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

Sglang可以跑了，但是FP8 256k上下文速度还是不太行，还在测

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:47:14 GMT

neo — Fri, 12 Jun 2026 15:47:14 GMT

@laobenxiong hermes每个N轮对话，会自动运行一个background_review，总结对话中的记忆和skill，在单slot中会导致system prompt与之前的不一致，所以prefill全部失效，而且hermes硬编码这个任务必须主模型亲自来完成，对于目前的llama.cpp版本来说确实不太友好。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:29:58 GMT

neo — Fri, 12 Jun 2026 15:29:58 GMT

@terry 是的，本来第一目标也是sglang，奈何有目前无法逾越的问题，只能退而求其次了。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 15:25:52 GMT

neo — Fri, 12 Jun 2026 15:25:52 GMT

@kop-wang 大神不敢当，小学生而已，共同进步。你的情况我没有遇到，也许可以先关闭cuda-graph或前缀缓存启动一次试试，实在不行用我现在这个模型试下：shawnw3i/Qwen3.6-27B-AWQ-MTP，参考启动参数：
vllm serve /path/to/models/Qwen3.6-27B-AWQ-MTP
--tensor-parallel-size 2
--max-model-len 262144
--gpu-memory-utilization 0.88
--kv-cache-dtype fp8
--max-num-seqs 2
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--port 9527 --host 0.0.0.0
--trust-remote-code
--served-model-name Qwen3.6-27B-AWQ-MTP
--max-num-batched-tokens 16384
--enable-prefix-caching
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
另外如果要用turboguant（跟MTP有兼容性问题），现在的版本需要先合并issues里的两个补丁，或者等0.23版本，以上希望可以帮到你。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 14:09:00 GMT

terry — Fri, 12 Jun 2026 14:09:00 GMT

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 07:58:51 GMT

mark — Fri, 12 Jun 2026 07:58:51 GMT

vllm ,ollma, lm studio ,我最终选择了 lm studio ,因为简单,鼠标操作就行
ollma 给你下载一堆的插件,让我卸载了,搞的我c盘都快满了.

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 07:07:36 GMT

kop wang — Fri, 12 Jun 2026 07:07:36 GMT

@neo vllm有个第一次启动导致OOM的问题，不知大神是否遇到过。我在运行vllm启用nvfp4模型时，会有一段时间内存、SSD读写直接爆炸，然后就崩溃了。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 06:45:27 GMT

neo — Fri, 12 Jun 2026 06:45:27 GMT

是的，这个问题困扰我挺久了，严重影响任务节奏，前几天换成VLLM后，目前感觉还挺不错，开启前缀缓存，hit百分之八九十，开MTP后推理速度跟llama相差无几，而且可以多任务并行，如果不想折腾推荐先用vllm。SGLANG运行Qwen3.6 INT4时目前兼容度还不是很好，有bug，注意避坑。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 02:14:09 GMT

laobenxiong — Fri, 12 Jun 2026 02:14:09 GMT

@kop-wang 我在 7900xtx 上用 llama-server (vulkan, b9553) + unsloth/Qwen3.6-27B-MTP-GGUF + hermes 配 262144 context, 问题的症状和这个不一样. 我可以一个 session 顺利到达 >200K 的上下文结束. 中间没有这里提到的 prefill 重填的问题(或者我没有注意到?). 我碰到的问题是, 任务结束以后, gpu还在运行, llama-server log 显示收到了一堆任务, 然后最后导致 ~200K 的 prefill 全部失效且重新 prefill. 让 hermes 自己调查了一下 (让它直接监控 llama-server 的日志, 它再和自己的日志对比), 它说是 creation_nudge_interval 和 nudge_interval 导致的, 并建议我把它们置0 (disable).

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:39:17 GMT

kop wang — Fri, 12 Jun 2026 01:39:17 GMT

@terry 有道理,学习了

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:36:12 GMT

terry — Fri, 12 Jun 2026 01:36:12 GMT

@kop-wang 不够劲爆，我认为可以用，慢一点而已。而且不是有带缓存版本的吗？我需要解决问题的，而不是发现问题的内容。观众看：我解决了xx问题，而不是：我发现了xx问题。

Reply to llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度 on Fri, 12 Jun 2026 01:33:11 GMT

kop wang — Fri, 12 Jun 2026 01:33:11 GMT

我觉得锤哥可以水一期视频了 @terry