综合这么多天的实践,我最终留了 两套配置:
620-23pm 最终给hermes用的
killall llama3-server 2>/dev/null; sleep 3
killall llama-server 2>/dev/null; sleep 3
export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
/data/model2/beellma616-kv.cpp/build/bin/llama-server \
--host 0.0.0.0 --port 8025 \
-m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 3 \
-ngl all \
--ctx-size 163840 -n 12000 \
--rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
-b 2048 -ub 512 \
-np 1 \
--kv-unified \
--cache-type-k kvarn4 \
--cache-type-v kvarn4 \
--cache-ram 8192 --no-mmap --mlock \
--no-host \
--jinja \
--no-warmup --reasoning off -fa on \
--temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
/data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S
killall llama3-server 2>/dev/null; sleep 3
killall llama-server 2>/dev/null; sleep 3
export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
/data/model2/beellma616-kv.cpp/build/bin/llama-server \
--host 0.0.0.0 --port 8025 \
-m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 3 \
-ngl all \
--ctx-size 163840 -n 16000 \
--rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
-b 2048 -ub 512 \
-np 1 \
--kv-unified \
--cache-type-k kvarn4 \
--cache-type-v kvarn4 \
--cache-ram 10240 --no-mmap --mlock \
--no-host \
--jinja \
--no-warmup --reasoning off -fa on \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0