抡锤者

Hcl

試出來了效果超好
prompt eval time = 2634.48 ms / 2988 tokens ( 0.88 ms per token, 1134.19 tokens per second)
eval time = 132563.02 ms / 9496 tokens ( 13.96 ms per token, 71.63 tokens per second)
total time = 135197.50 ms / 12484 tokens

指令
.\build\bin\Release\llama-server.exe -m "C:\Users\User.lmstudio\models\byteshape\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-IQ4_XS-3.53bpw.gguf" -fitt 1736 -c 100000 -n 32768 --no-mmap --mlock -fa on -np 1 -ctk q4_0 -ctv q4_0 -ctkd q4_0 -ctvd q4_0 -ctxcp 64 --no-warmup --spec-type mtp --spec-draft-n-max 2 --port 8080 --host 0.0.0.0

Hcl

@CS6 好的感謝我會再試試看

Hcl

@CS6 有考慮照那篇reddit換去CachyOS看看

Hcl

@566656661 我覺得比較奇怪的是我的ik_llama.cpp跑再windows反而比llama.cpp慢

Hcl

https://www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/

我照這片貼文的設置
結果速度(~30tps)反而比llama.cpp(~50tps)還慢
請問有人知道為什麼嗎
OS:win11
GPU:4070 12g
RAM:DDR4 16g*2

抡锤者

Hcl

帖子