3080 20g 千问 3.6 27bq4 k m llama 跑Hermes配置 实在搞不定 折腾2天了
-
@kop-wang ~/llama.cpp/build/bin/llama-server -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \
--spec-type draft-mtp --spec-draft-n-max 3 \
--flash-attn --n-gpu-layers 99 on --threads 6 --parallel 1 \
-ctk q8_0 -ctv q4_0 --ctx-size 96000 \
-b 3072 -ub 1024 --no-warmup --no-mmap \
--host 0.0.0.0 --port 8080 \
--reasoning off --jinja --chat-template-file models/Qwen/chat_template.jinja
能启动 就是太慢了 9_10token得蹦 我想连接hermes
电脑配置是Cup 5950x 48内存 -
@老鬼 你的配置其实是可玩的,不用被劝退。问题出在开启MTP的情况下ctx-size设96000,显存不够用了。
算一下显存账:
- Qwen3.6-27B-Q4_K_M 本身 ≈ 16GB
- KV cache(64K上下文) ≈ 3-4GB
- MTP draft model(额外的小模型做投机采样)≈ 2-3GB
- 总计 ≈ 22-23GB,超过了3080 20G的容量
所以速度暴跌不是因为你配置差,是显存超了,部分参数被offload到内存了。
建议去掉MTP,这样跑:
~/llama.cpp/build/bin/llama-server \ -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \ --flash-attn --n-gpu-layers 99 \ --threads 8 --parallel 1 \ --ctx-size 64000 \ -b 2048 -ub 512 \ --no-mmap \ --host 0.0.0.0 --port 8080 \ --jinja --chat-template-file models/Qwen/chat_template.jinja去掉
--spec-type draft-mtp --spec-draft-n-max 3和--no-warmup,ctx-size降到64000。这样3080 20G完全够用,27B Q4应该能跑到15-20 t/s左右,连接Hermes日常用完全没问题。5950X + 3080 20G 这个组合跑27B其实很均衡,GPU够大CPU也够强。先把不带MTP跑稳了,如果想折腾MTP,可以试试Q3_K_M量化或者ctx-size降到32000。
-
@老鬼 单卡20g跑27b一般是爆显存,再搞一张正好很舒服。
CUDA_SCALE_LAUNCH_QUEUES=4 /home/simon/llama.cpp/build/bin/llama-server
-m /home/simon/models/Qwen3.6-27B-Q4_K_M.gguf
--mmproj /home/simon/models/mmproj-Qwen_Qwen3.6-27B-f16.gguf
-ngl 99
--host 127.0.0.1
--port 8082
-c 131072
--temp 0.1
--reasoning-budget 2048
--spec-type draft-mtp,ngram-mod
--spec-draft-model /home/simon/models/mtp-Qwen_Qwen3.6-27B-Q8_0.gguf
--spec-draft-n-max 3
--spec-ngram-mod-n-max 5
--spec-ngram-mod-n-min 3
--ubatch-size 768
--batch-size 2048
-fa on
-ctk q4_0
-ctv q4_0
