3090 24G 跑QWOPUS 3.6 27B mtp 131K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(6月14日更新)
-
我用vllm 双卡没有NVLINK
Prefill 4K 重复测量 (5 次)
run prompt_tokens ttft tok/s 1 3 836 2 776 ms 1 382 2 3 836 2 735 ms 1 403 3 3 834 2 665 ms 1 439 4 3 833 2 770 ms 1 384 5 3 838 2 772 ms 1 384 Decode 单流 重复测量 (4 次)
run prompt_tokens completion_tokens ttft decode tok/s 1 76 220 256 ms 66.2 2 79 220 278 ms 66.6 3 81 220 284 ms 66.7 4 80 220 284 ms 66.7 -
@c0aster 感谢分享,已经按照ik-llama实施,实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了
-
,
T terry 取消固定了此主题
-
@c0aster https://github.com/ikawrakow/ik_llama.cpp 从这个项目自己编译的ik_llama,启动参数如下:
start "ik_llama - heretic-v2 27B" "%EXE%" ^
-m "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf" ^
--mmproj "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf" ^
-ngl 99 -c 131072 --threads 12 --no-mmap ^
--flash-attn on ^
--cache-type-k q4_0 --cache-type-v q4_0 ^
--batch-size 512 --ubatch-size 256 ^
--merge-qkv --merge-up-gate-experts ^
--cache-ram 32768 ^
--spec-type mtp:n_max=4,p_min=0.0 ^
--jinja --chat-template-file "%TEMPLATE%" ^
--timeout 3600 --host 0.0.0.0 --port 8080 -
今天准备使用的参数如下:
#top-p 0.95 则尾部应该--min-p 0.01 将尾部噪音切除,否则可能造成循环! # 只开n-max 为2的话,长上下文稳定性应该好, k精度取q8_0获得较高的注意力精度 # 预留1024M空间,防止腾挪时发生显存爆炸 #bofan Qwopus3.6-27B-Coder-MTP-IQ4_XS killall llama-server 2>/dev/null; sleep 3 cd /data/model2/bofan-llama.cpp/build/bin CUDA_SCALE_LAUNCH_QUEUES=4x \ ./llama-server \ -m /data/model2/Qwopus3.6-27B-Coder-MTP-IQ4_XS.gguf \ -c 132000 \ -ngl 9999 \ -fa on --metrics --fit-target 1024 \ -ctk q8_0 -ctv turbo4 \ --spec-type mtp \ --spec-draft-n-min 2 \ --spec-draft-n-max 3 \ --jinja \ --chat-template-file /data/model2/chat_template-fixed-v20.jinja \ --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.01 \ --mlock -np 1 \ -b 1024 -ub 1024 \ --host 0.0.0.0 --port 8025 \ --reasoning auto \ --reasoning-format deepseek --reasoning-budget 4096较复杂的俄罗斯方块多步生成 ,要10分钟左右,这个模型和参数似乎拥有并行修改错误代码的能力

生成 俄罗斯方块之后,再在WEB UI测试 半开放式问题。内容质量及速度都比较均衡:(平衡75T/S)

这个模型比较适合写程序代码,如果内容创作,建议使用qwen 3.6 27B V2 MTP原版