VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
--model /models/qwen/Qwen3.6-27B-FP8
--trust-remote-code
--max-model-len 102400
--kv-cache-dtype fp8_e4m3
--gpu-memory-utilization 0.55
--enable-chunked-prefill
--enable-prefix-caching
--max-num-batched-tokens 8192
--max-num-seqs 2
--speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
--served-model-name "Qwen-27B-FP8"
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--host 0.0.0.0
--port 8000
[image: f848e14d-f6a8-4b07-bc00-ae5226fce67c.jpeg]
我用的这个参数,然后comfyui做的生成视频工作流,研究了一晚上暂时没有崩过,comfyui跑起来的额时候能到40GB左右的样子通常不会超过40GB。vllm我之前设置的0.58也不会崩,后面为了保险降到了0.55;不过我这是100K上下文,暂时就我一个人在用。
不清楚如果后面有并发了会不会崩。