记录一下自己RTX3080 20g的一些配置
WIN11安装:
git clone https://github.com/ggerganov/llama.cpp
cmake -B build -D GGML_CUDA=ON -D CMAKE_CUDA_ARCHITECTURES=86 -D LLAMA_BUILD_SERVER=ON -D LLAMA_BUILD_ALL_EXAMPLES=OFF -D LLAMA_BUILD_TESTS=OFF -D LLAMA_BUILD_EXAMPLES=OFF
cmake --build build --config Release --parallel 2
27B原始64KQ8(35token/s):
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf -c 65536
-ngl 99 -t 14
-tb 14 -b 2048
-ub 512 --flash-attn on
--cache-type-k q8_0 --cache-type-v q8_0
--kv-offload --kv-unified
--mmap --mlock
--context-shift --reasoning off
--reasoning-budget 0 --host 0.0.0.0
--port 11434
27B126KQ4MTP无多模态(48token/s)
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf -c 128000
-ngl 99 -t 14
-tb 14 -b 4096
-ub 256 --jinja
--temp 0.7 --top-p 0.9
--top-k 40 --min-p 0.0
--presence-penalty 1.0 --repeat-penalty 1.05
--flash-attn on --cache-type-k q4_0
--cache-type-v q4_0 --kv-offload
--kv-unified --mmap
--mlock --spec-type draft-mtp
--spec-draft-n-max 2 --skip-chat-parsing
--reasoning off --reasoning-budget 0
--host 0.0.0.0 `
--port 11434
35B256KQ4多模态 无MTP (113 TOKEN/S)
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-35B-A3B-UD-IQ4_NL.gguf -c 262144
-ngl 55 -t 14
-tb 14 -b 4096
-ub 256 --jinja
--temp 0.7 --top-p 0.9
--top-k 40 --min-p 0.0
--presence-penalty 1.0 --repeat-penalty 1.05
--flash-attn on --mmproj D:/hermeswork/models/mmproj-F32.gguf
--no-mmproj-offload --image-min-tokens 1024
--cache-type-k q4_0 --cache-type-v q4_0
--skip-chat-parsing --reasoning off
--reasoning-budget 0 --host 0.0.0.0
--port 8080 --kv-offload
--kv-unified --mmap
--mlock `
真是一张神卡啊









