vLLM 可以運行 32k 上下文,對於Agent用途來說還不錯,MTP速度為 50~60 tk/s @250w
--model ~/AiModel/int4-AutoRound
--gpu-memory-utilization 0.95
--max-model-len 32768
--enable-auto-tool-choice
--tool-call-parser qwen3_coder 0
--language-model-only
--host 0.0.0.0 --port 8000
--kv-cache-dtype fp8_e5m2
--max-num-seqs 1
--max-num-batched-tokens 4128
--trust-remote-code
--dtype bfloat16
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'