3090 24G 跑QWOPUS 3.6 27B mtp 131K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(6月14日更新)

ran z

5090移动版也是24g，能抄作业吗？

applejuice

我用vllm 双卡没有NVLINK

Prefill 4K 重复测量 (5 次)

run	prompt_tokens	ttft	tok/s
1	3 836	2 776 ms	1 382
2	3 836	2 735 ms	1 403
3	3 834	2 665 ms	1 439
4	3 833	2 770 ms	1 384
5	3 838	2 772 ms	1 384

Decode 单流重复测量 (4 次)

run	prompt_tokens	completion_tokens	ttft	decode tok/s
1	76	220	256 ms	66.2
2	79	220	278 ms	66.6
3	81	220	284 ms	66.7
4	80	220	284 ms	66.7

terry

@ran-z 5090移动版也快很多，有啥不能抄的？

毅袁

@c0aster 感谢分享，已经按照ik-llama实施，实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了

c0aster

@毅袁你不是用的3090clud的脚本是吧，我用3090club的脚本只有40多，你咋能跑69，分享下具体的呗

5ccccc

我今天用7900xtx跑一个本地任务的时候也oom了，参考的论坛内的一个设置

毅袁

@c0aster https://github.com/ikawrakow/ik_llama.cpp 从这个项目自己编译的ik_llama，启动参数如下：
start "ik_llama - heretic-v2 27B" "%EXE%" ^
-m "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf" ^
--mmproj "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf" ^
-ngl 99 -c 131072 --threads 12 --no-mmap ^
--flash-attn on ^
--cache-type-k q4_0 --cache-type-v q4_0 ^
--batch-size 512 --ubatch-size 256 ^
--merge-qkv --merge-up-gate-experts ^
--cache-ram 32768 ^
--spec-type mtp:n_max=4,p_min=0.0 ^
--jinja --chat-template-file "%TEMPLATE%" ^
--timeout 3600 --host 0.0.0.0 --port 8080

stxpnet

今天准备使用的参数如下：

#top-p 0.95 则尾部应该--min-p 0.01 将尾部噪音切除，否则可能造成循环！ 
# 只开n-max 为2的话，长上下文稳定性应该好， k精度取q8_0获得较高的注意力精度
# 预留1024M空间，防止腾挪时发生显存爆炸
#bofan Qwopus3.6-27B-Coder-MTP-IQ4_XS
killall llama-server 2>/dev/null; sleep 3
cd /data/model2/bofan-llama.cpp/build/bin
CUDA_SCALE_LAUNCH_QUEUES=4x \
./llama-server \
  -m /data/model2/Qwopus3.6-27B-Coder-MTP-IQ4_XS.gguf \
  -c 132000 \
  -ngl 9999 \
  -fa on --metrics --fit-target 1024 \
  -ctk q8_0 -ctv turbo4 \
  --spec-type mtp \
  --spec-draft-n-min 2 \
  --spec-draft-n-max 3 \
  --jinja \
  --chat-template-file /data/model2/chat_template-fixed-v20.jinja \
 --temp 0.6  --top-k 20 --top-p 0.95 --min-p 0.01 \
  --mlock -np 1   \
  -b 1024 -ub 1024 \
  --host 0.0.0.0 --port 8025 \
  --reasoning auto \
  --reasoning-format deepseek --reasoning-budget 4096

较复杂的俄罗斯方块多步生成，要10分钟左右，这个模型和参数似乎拥有并行修改错误代码的能力

生成俄罗斯方块之后，再在WEB UI测试半开放式问题。内容质量及速度都比较均衡：（平衡75T/S）

这个模型比较适合写程序代码，如果内容创作，建议使用qwen 3.6 27B V2 MTP原版

Boling Li

@stxpnet 太棒了。视觉的pp太瓶颈了，做脑子还是MTP+阉割视觉。楼主有遇到过loop的问题吗？相同的模型后台一直卡在一个“summary” 的任务下重复了半个小时

stxpnet

@Boling-Li 多方面原因的，你这种有可能是K V CACHE里面产生的参数模型权重内找不到。我上面是用了min-p=0.01来规避。

抡锤者

3090 24G 跑QWOPUS 3.6 27B mtp 131K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(6月14日更新)