3080 20g 千问 3.6 27bq4 k m llama 跑Hermes配置实在搞不定折腾2天了

老鬼

@kop-wang ~/llama.cpp/build/bin/llama-server -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \

--spec-type draft-mtp --spec-draft-n-max 3 \

--flash-attn --n-gpu-layers 99 on --threads 6 --parallel 1 \

-ctk q8_0 -ctv q4_0 --ctx-size 96000 \

-b 3072 -ub 1024 --no-warmup --no-mmap \

--host 0.0.0.0 --port 8080 \

--reasoning off --jinja --chat-template-file models/Qwen/chat_template.jinja
能启动就是太慢了 9_10token得蹦我想连接hermes
电脑配置是Cup 5950x 48内存

老鬼

不知道我着套配置可玩吗？

kop wang

去掉mtp相关配置，然后上下文开到64000，看看显存占用。应该是爆显存了

Xiaote

@老鬼你的配置其实是可玩的，不用被劝退。问题出在开启MTP的情况下ctx-size设96000，显存不够用了。

算一下显存账：

Qwen3.6-27B-Q4_K_M 本身 ≈ 16GB
KV cache（64K上下文） ≈ 3-4GB
MTP draft model（额外的小模型做投机采样）≈ 2-3GB
总计 ≈ 22-23GB，超过了3080 20G的容量

所以速度暴跌不是因为你配置差，是显存超了，部分参数被offload到内存了。

建议去掉MTP，这样跑：

~/llama.cpp/build/bin/llama-server \
  -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \
  --flash-attn --n-gpu-layers 99 \
  --threads 8 --parallel 1 \
  --ctx-size 64000 \
  -b 2048 -ub 512 \
  --no-mmap \
  --host 0.0.0.0 --port 8080 \
  --jinja --chat-template-file models/Qwen/chat_template.jinja

去掉 --spec-type draft-mtp --spec-draft-n-max 3 和 --no-warmup，ctx-size降到64000。这样3080 20G完全够用，27B Q4应该能跑到15-20 t/s左右，连接Hermes日常用完全没问题。

5950X + 3080 20G 这个组合跑27B其实很均衡，GPU够大CPU也够强。先把不带MTP跑稳了，如果想折腾MTP，可以试试Q3_K_M量化或者ctx-size降到32000。

comeN

下载Trae CN和WorkBuddy，全让这俩弄，让他们直接给你写启动的bat，要优化或者改什么东西直接让他们干，弹警告直接复制粘贴过去，Trae CN是默认模型，WorkBuddy用DeepSeek-V4的flash和pro模型,遇到那些优化配置搞不懂直接把网址给这俩让他们帮你配置，不满意就让他们仔细读网址，从来，没有解决不了的问题！

rock shi

@老鬼单卡20g跑27b一般是爆显存，再搞一张正好很舒服。

CUDA_SCALE_LAUNCH_QUEUES=4 /home/simon/llama.cpp/build/bin/llama-server
-m /home/simon/models/Qwen3.6-27B-Q4_K_M.gguf
--mmproj /home/simon/models/mmproj-Qwen_Qwen3.6-27B-f16.gguf
-ngl 99
--host 127.0.0.1
--port 8082
-c 131072
--temp 0.1
--reasoning-budget 2048
--spec-type draft-mtp,ngram-mod
--spec-draft-model /home/simon/models/mtp-Qwen_Qwen3.6-27B-Q8_0.gguf
--spec-draft-n-max 3
--spec-ngram-mod-n-max 5
--spec-ngram-mod-n-min 3
--ubatch-size 768
--batch-size 2048
-fa on
-ctk q4_0
-ctv q4_0

老鬼

交作业来了感谢大哥们稍微指点下就豁然开朗了

微信图片_20260603122822_119_2.png

李源

还有更简单的，直接用LM STUDIO也可以。

Tide

3080 20G是可以跑27b Q4KM 上下文128k的。我用的llama-turboquant版本

asd2667

换IQ4_xs版，可以节省显存，上下文能开到120以上 KV-Q4_0 压缩后

抡锤者

3080 20g 千问 3.6 27bq4 k m llama 跑Hermes配置 实在搞不定 折腾2天了

3080 20g 千问 3.6 27bq4 k m llama 跑Hermes配置实在搞不定折腾2天了