llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度

kop wang

@terry 有道理,学习了

laobenxiong

@kop-wang 我在 7900xtx 上用 llama-server (vulkan, b9553) + unsloth/Qwen3.6-27B-MTP-GGUF + hermes 配 262144 context, 问题的症状和这个不一样. 我可以一个 session 顺利到达 >200K 的上下文结束. 中间没有这里提到的 prefill 重填的问题(或者我没有注意到?). 我碰到的问题是, 任务结束以后, gpu还在运行, llama-server log 显示收到了一堆任务, 然后最后导致 ~200K 的 prefill 全部失效且重新 prefill. 让 hermes 自己调查了一下 (让它直接监控 llama-server 的日志, 它再和自己的日志对比), 它说是 creation_nudge_interval 和 nudge_interval 导致的, 并建议我把它们置0 (disable).

neo

是的，这个问题困扰我挺久了，严重影响任务节奏，前几天换成VLLM后，目前感觉还挺不错，开启前缀缓存，hit百分之八九十，开MTP后推理速度跟llama相差无几，而且可以多任务并行，如果不想折腾推荐先用vllm。SGLANG运行Qwen3.6 INT4时目前兼容度还不是很好，有bug，注意避坑。

kop wang

@neo vllm有个第一次启动导致OOM的问题，不知大神是否遇到过。我在运行vllm启用nvfp4模型时，会有一段时间内存、SSD读写直接爆炸，然后就崩溃了。

mark

vllm ,ollma, lm studio ,我最终选择了 lm studio ,因为简单,鼠标操作就行
ollma 给你下载一堆的插件,让我卸载了,搞的我c盘都快满了.

terry

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

neo

@kop-wang 大神不敢当，小学生而已，共同进步。你的情况我没有遇到，也许可以先关闭cuda-graph或前缀缓存启动一次试试，实在不行用我现在这个模型试下：shawnw3i/Qwen3.6-27B-AWQ-MTP，参考启动参数：
vllm serve /path/to/models/Qwen3.6-27B-AWQ-MTP
--tensor-parallel-size 2
--max-model-len 262144
--gpu-memory-utilization 0.88
--kv-cache-dtype fp8
--max-num-seqs 2
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--port 9527 --host 0.0.0.0
--trust-remote-code
--served-model-name Qwen3.6-27B-AWQ-MTP
--max-num-batched-tokens 16384
--enable-prefix-caching
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
另外如果要用turboguant（跟MTP有兼容性问题），现在的版本需要先合并issues里的两个补丁，或者等0.23版本，以上希望可以帮到你。

neo

@terry 是的，本来第一目标也是sglang，奈何有目前无法逾越的问题，只能退而求其次了。

neo

@laobenxiong hermes每个N轮对话，会自动运行一个background_review，总结对话中的记忆和skill，在单slot中会导致system prompt与之前的不一致，所以prefill全部失效，而且hermes硬编码这个任务必须主模型亲自来完成，对于目前的llama.cpp版本来说确实不太友好。

Brian

@terry 说:

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

Sglang可以跑了，但是FP8 256k上下文速度还是不太行，还在测

Colt

这个问题也困扰我很久，目前用chat template 补丁，还是有不少改善：
https://lcz.me/post/5404

terry

@Brian 有空发帖分享下，能抄作业我才去折腾，最好是docker版本的。

抡锤者

llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度

翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。

结论是，目前的llama.cpp+qwen3.6-27B这个组合，在Agent工具这个场景下，性能不可用。