llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度

neo

是的，这个问题困扰我挺久了，严重影响任务节奏，前几天换成VLLM后，目前感觉还挺不错，开启前缀缓存，hit百分之八九十，开MTP后推理速度跟llama相差无几，而且可以多任务并行，如果不想折腾推荐先用vllm。SGLANG运行Qwen3.6 INT4时目前兼容度还不是很好，有bug，注意避坑。

kop wang

@neo vllm有个第一次启动导致OOM的问题，不知大神是否遇到过。我在运行vllm启用nvfp4模型时，会有一段时间内存、SSD读写直接爆炸，然后就崩溃了。

mark

vllm ,ollma, lm studio ,我最终选择了 lm studio ,因为简单,鼠标操作就行
ollma 给你下载一堆的插件,让我卸载了,搞的我c盘都快满了.

terry

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

neo

@kop-wang 大神不敢当，小学生而已，共同进步。你的情况我没有遇到，也许可以先关闭cuda-graph或前缀缓存启动一次试试，实在不行用我现在这个模型试下：shawnw3i/Qwen3.6-27B-AWQ-MTP，参考启动参数：
vllm serve /path/to/models/Qwen3.6-27B-AWQ-MTP
--tensor-parallel-size 2
--max-model-len 262144
--gpu-memory-utilization 0.88
--kv-cache-dtype fp8
--max-num-seqs 2
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--port 9527 --host 0.0.0.0
--trust-remote-code
--served-model-name Qwen3.6-27B-AWQ-MTP
--max-num-batched-tokens 16384
--enable-prefix-caching
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
另外如果要用turboguant（跟MTP有兼容性问题），现在的版本需要先合并issues里的两个补丁，或者等0.23版本，以上希望可以帮到你。

neo

@terry 是的，本来第一目标也是sglang，奈何有目前无法逾越的问题，只能退而求其次了。

neo

@laobenxiong hermes每个N轮对话，会自动运行一个background_review，总结对话中的记忆和skill，在单slot中会导致system prompt与之前的不一致，所以prefill全部失效，而且hermes硬编码这个任务必须主模型亲自来完成，对于目前的llama.cpp版本来说确实不太友好。

Brian

@terry 说:

@neo 其实只有SG-Lang能跑，本地才有意义，没有Radix缓存树，本地hermes挂机做任务好可以，要实时做事太慢了。

Sglang可以跑了，但是FP8 256k上下文速度还是不太行，还在测

Colt

这个问题也困扰我很久，目前用chat template 补丁，还是有不少改善：
https://lcz.me/post/5404

terry

@Brian 有空发帖分享下，能抄作业我才去折腾，最好是docker版本的。

抡锤者

llama.cpp目前有重大性能BUG：checkpoint的巡回逻辑对于混合模型（比如qwen3.6-27B）无效，从而导致大概率每次对话都要prefill全文，严重拖慢速度