ik_llama.cpp效能問題

Reply to ik_llama.cpp效能問題 on Sun, 21 Jun 2026 02:20:42 GMT

stxpnet — Sun, 21 Jun 2026 02:20:42 GMT

可试试BEELLAMA 3.2预览版，用华为 kavrn kv cache格式，不过草稿格式好像还不支持。

Reply to ik_llama.cpp效能問題 on Sat, 20 Jun 2026 14:19:14 GMT

Hcl — Sat, 20 Jun 2026 14:19:14 GMT

試出來了效果超好
prompt eval time = 2634.48 ms / 2988 tokens ( 0.88 ms per token, 1134.19 tokens per second)
eval time = 132563.02 ms / 9496 tokens ( 13.96 ms per token, 71.63 tokens per second)
total time = 135197.50 ms / 12484 tokens

指令
.\build\bin\Release\llama-server.exe -m "C:\Users\User.lmstudio\models\byteshape\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-IQ4_XS-3.53bpw.gguf" -fitt 1736 -c 100000 -n 32768 --no-mmap --mlock -fa on -np 1 -ctk q4_0 -ctv q4_0 -ctkd q4_0 -ctvd q4_0 -ctxcp 64 --no-warmup --spec-type mtp --spec-draft-n-max 2 --port 8080 --host 0.0.0.0

Reply to ik_llama.cpp效能問題 on Sun, 14 Jun 2026 07:20:21 GMT

Hcl — Sun, 14 Jun 2026 07:20:21 GMT

@CS6 好的感謝我會再試試看

Reply to ik_llama.cpp效能問題 on Fri, 12 Jun 2026 04:13:15 GMT

CS6 — Fri, 12 Jun 2026 04:13:15 GMT

@Hcl 说:

CachyOS

你需要的是一個沒有UI的環境，任何的G U I (WM )都會佔用顯示卡效能

Reply to ik_llama.cpp效能問題 on Fri, 12 Jun 2026 03:27:29 GMT

Hcl — Fri, 12 Jun 2026 03:27:29 GMT

@CS6 有考慮照那篇reddit換去CachyOS看看

Reply to ik_llama.cpp效能問題 on Thu, 11 Jun 2026 22:13:18 GMT

Xiaote — Thu, 11 Jun 2026 22:13:18 GMT

@Hcl ik_llama.cpp 比 llama.cpp 慢，在12G显存+Windows环境下是预期内的，原因如下：

ik_llama.cpp 的核心优化方向是"极致压缩显存"，它用的 IQ4_XS 等非常规量化格式在压缩率上确实比 Q4_K_M 更高，但代价是反量化(dequantization)时需要额外的 CPU/GPU 计算开销。在你 12G 显存跑 35B 模型的情况下：

模型无法完全放进显存（35B Q4 约 20G，Q4_XS 约 17G），你的 12G 必然触发大量 CPU Offload —— 而 ik 的 CPU Offload 通路在 Windows 上没有做过专门优化。
Windows CUDA 本身的 overhead 比 Linux 高。llama.cpp 主线的 Windows CUDA 后端经过大量用户打磨，ik_llama.cpp 作为个人分支在 CUDA kernel 优化上没有走那么远。
Reddit 那个 110 t/s 的成绩是用 DDR5 6000 + Linux 跑的，内存带宽对 offload 场景影响极大。你的 DDR4 双通道带宽（~40-50GB/s）只有 DDR5 6000（~90GB/s）的一半左右。

建议：12G 显存 + DDR4 的场景，最适合的模型是 7B-14B Q4 全程跑在显存里，或者 20B+ 模型用 Q3_K_M + -ngl 20（只放前20层到GPU）。ik_llama.cpp 的优势在显存极度吃紧的 edge case（比如 6G 跑 14B），12G 的场景它反而没优势。

Reply to ik_llama.cpp效能問題 on Thu, 11 Jun 2026 10:05:22 GMT

terry — Thu, 11 Jun 2026 10:05:22 GMT

@CS6 内存也不够，

Reply to ik_llama.cpp效能問題 on Thu, 11 Jun 2026 09:07:29 GMT

CS6 — Thu, 11 Jun 2026 09:07:29 GMT

@hcl 老哥，你先放棄 win11 吧，這點內存跟 Vram 都不夠系統折騰....

Reply to ik_llama.cpp效能問題 on Thu, 11 Jun 2026 09:05:20 GMT

Hcl — Thu, 11 Jun 2026 09:05:20 GMT

@566656661 我覺得比較奇怪的是我的ik_llama.cpp跑再windows反而比llama.cpp慢

Reply to ik_llama.cpp效能問題 on Mon, 08 Jun 2026 01:49:07 GMT

566656661 — Mon, 08 Jun 2026 01:49:07 GMT

@Hcl

模型太大, 12GB放不下必須要倒進內存, Reddit那個是用DDR5 6000, 比DDR4快上不少