3090单卡终极测试,opencode(oh-my-opencode) 一个LLM分饰多角。
-
综合这么多天的实践,我最终留了 两套配置:
620-23pm 最终给hermes用的 killall llama3-server 2>/dev/null; sleep 3 killall llama-server 2>/dev/null; sleep 3 export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH /data/model2/beellma616-kv.cpp/build/bin/llama-server \ --host 0.0.0.0 --port 8025 \ -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \ --spec-type draft-mtp \ --spec-draft-n-max 3 \ -ngl all \ --ctx-size 163840 -n 12000 \ --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \ -b 2048 -ub 512 \ -np 1 \ --kv-unified \ --cache-type-k kvarn4 \ --cache-type-v kvarn4 \ --cache-ram 8192 --no-mmap --mlock \ --no-host \ --jinja \ --no-warmup --reasoning off -fa on \ --temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0/data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S killall llama3-server 2>/dev/null; sleep 3 killall llama-server 2>/dev/null; sleep 3 export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH /data/model2/beellma616-kv.cpp/build/bin/llama-server \ --host 0.0.0.0 --port 8025 \ -m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \ --spec-type draft-mtp \ --spec-draft-n-max 3 \ -ngl all \ --ctx-size 163840 -n 16000 \ --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \ -b 2048 -ub 512 \ -np 1 \ --kv-unified \ --cache-type-k kvarn4 \ --cache-type-v kvarn4 \ --cache-ram 10240 --no-mmap --mlock \ --no-host \ --jinja \ --no-warmup --reasoning off -fa on \ --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0









经过几次调整参数和修改策略,勉强跑到这个程度。 其中我在60%上下文的时候应该寻找时机压缩一次的。 opencode不像hermes那样有自动压缩机制。 现在压缩一下看能不能救回来