GX10主機vLLM部屬Qwen3.6請益

Reply to GX10主機vLLM部屬Qwen3.6請益 on Wed, 27 May 2026 15:03:48 GMT

soop ladios — Wed, 27 May 2026 15:03:48 GMT

一台GX10跑qwen3.6 27B FP8, 開mtp大概有20 tok/s, 我的配置如下, 抄上面那個網站的:
spark3:~/llm/qwen26-27b$ cat qwen3.6-27b-fp8.yaml
recipe_version: "1"
name: Qwen3.6-27B-FP8-MTP
description: vLLM serving Qwen3.6-27B-FP8 with MTP=3 on a single GB10 (Spark Arena recipe)
model: Qwen/Qwen3.6-27B-FP8
container: vllm/vllm-openai:v0.20.0-aarch64-cu130-ubuntu2404-ws
solo_only: true

defaults:
port: 8004
host: 0.0.0.0
tensor_parallel: 1
gpu_memory_utilization: 0.8069
max_model_len: 262144
max_num_batched_tokens: 32768
max_num_seqs: 8

env:
VLLM_MARLIN_USE_ATOMIC_ADD: "1"
VLLM_USE_DEEP_GEMM: "0"
CUDA_MANAGED_FORCE_DEVICE_ALLOC: "1"
PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:True"
OMP_NUM_THREADS: "4"

command: |
vllm serve Qwen/Qwen3.6-27B-FP8
--served-model-name Qwen/Qwen3.6-27B-FP8 qwen3.6-27b
--tensor-parallel-size {tensor_parallel}
--port {port} --host {host}
--max-model-len {max_model_len}
--max-num-seqs {max_num_seqs}
--max-num-batched-tokens {max_num_batched_tokens}
--gpu-memory-utilization {gpu_memory_utilization}
--kv-cache-dtype fp8
--enable-prefix-caching
--language-model-only
--async-scheduling
--max-cudagraph-capture-size 128
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--speculative-config '{{"method":"mtp","num_speculative_tokens":3}}'
--trust-remote-code

如果有兩台會再快一些

Reply to GX10主機vLLM部屬Qwen3.6請益 on Wed, 27 May 2026 02:26:07 GMT

kop wang — Wed, 27 May 2026 02:26:07 GMT

GB10芯片的相关设备，可以参考此网站进行设置：https://spark-arena.com/leaderboard

Reply to GX10主機vLLM部屬Qwen3.6請益 on Wed, 27 May 2026 01:56:54 GMT

Fishbubu — Wed, 27 May 2026 01:56:54 GMT

感謝!我再試看看!

Reply to GX10主機vLLM部屬Qwen3.6請益 on Mon, 25 May 2026 07:03:20 GMT

Xiaote — Mon, 25 May 2026 07:03:20 GMT

@Fishbubu GX10 上跑两个 vLLM 容器的性能优化，在不加硬件的情况下有几个可以优化的点：

1. --gpu-memory-utilization 拉高
你目前的 27B 设置的是 0.70，对于单卡场景偏保守了。GX10 如果是 48GB+ 显存，0.70 = 33.6GB 预留给 vLLM。27B fp8 模型权重约 27GB + KV cache 动态分配，实际利用率不高。建议提到 0.90-0.95，vLLM 的 memory management 已经很成熟了，不会 OOM。

2. 9B 容器的 memory utilization 可以压低
0.25 对 9B 模型来说太多了，9B fp8 权重才 ~9GB。压到 0.15 甚至 0.10，省下显存给 27B 那边。

3. 加 --enable-prefix-caching（关键）
LibreChat 每次对话都会带上 system prompt，前缀几乎一样。加上这个参数后，vLLM 会自动缓存 KV cache 中重复前缀的部分，多用户并发时吞吐量提升很明显：

--enable-prefix-caching true
--max-num-seqs 256

4. --num-scheduler-steps 提高吞吐
默认是 1，建议加到 8：

--num-scheduler-steps 8

配合 --max-num-batched-tokens 8192，让调度器一次拿更多 token 处理，减少 overhead。

5. 考虑合并为一个 vLLM 实例（进阶）
两个 vLLM 容器各占一份显存开销（模型本身之外还有 scheduler 等 overhead）。如果只有一个 GPU，可以让一个 vLLM 实例同时 serve 两个模型，通过 --model 指定主模型，然后用 --serve-models 路由。这样显存利用率更高。

6. fp8 Cache 没问题，但检查下你的 GPU 是否硬件支持
GX10（Blackwell）原生支持 fp8，但如果你用的 vLLM 镜像版本较旧，fp8 KV cache 走的是软件模拟，反而会慢。确认下 vLLM 版本 >= 0.8.0。

还有就是 max-model-len 32K 对 27B 够用了，如果实际使用很少跑满 32K，可以适当降到 16K 省显存。