双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测

davidwei0826

双卡3090 vLLM跑Qwen3.6-27B，强烈建议关注： https://github.com/noonghunna/club-3090 。
我自己的环境：双卡3090 nvlink，模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh)， p50_decode_tps：61.34；p95_ttft_ms：4864 。
官方给的测试，应该能到接近70tps，我的还有优化空间，但是能用了就没折腾，参考DUAL_CARD.md。
num_speculative_tokens我测了2,3,4,5。效果上3最好。

启动脚本：

root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
#!/bin/bash
source /root/.bashrc
source /root/venv/bin/activate
# vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
# 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
#   TP: tensor-parallel size，默认 2
#   PP: pipeline-parallel size，默认 1

set -e

# ========== 参数 ==========
TP="${1:-${TP:-2}}"
PP="${2:-${PP:-1}}"
MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
PORT="${PORT:-8000}"
HOST="${HOST:-0.0.0.0}"
MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
TOP_P="${TOP_P:-0.95}"
TOP_K="${TOP_K:-20}"
MIN_P="${MIN_P:-0.0}"
REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"

# speculative decoding
SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'

# 推理模板参数（关闭 thinking）
CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'

# ========== 环境变量 ==========
export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export NCCL_CUMEM_ENABLE=0
export NCCL_P2P_DISABLE=0
export VLLM_NO_USAGE_STATS=1
export VLLM_USE_FLASHINFER_SAMPLER=1
export OMP_NUM_THREADS=1
export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"

# NVLink 检测（自行补充 detect_nvlink.sh 逻辑，或删掉这两行）
# source /etc/club3090/detect_nvlink.sh
# _NVLINK_ENABLED=0  # 手动设置：0=无NVLink, 1=NvLink开启

# ========== 构建命令 ==========
ARGS=(
    --model "$MODEL_PATH"
    --served-model-name qwen3.6-27b-autoround
    --quantization auto_round
    --dtype float16
    --tensor-parallel-size "$TP"
    --pipeline-parallel-size "$PP"
    --max-model-len "$MAX_MODEL_LEN"
    --gpu-memory-utilization "$GPU_MEM_UTIL"
    --max-num-seqs 2
    --max-num-batched-tokens 8192
    --kv-cache-dtype "$KV_CACHE_DTYPE"
    --trust-remote-code
  #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
    --reasoning-parser qwen3
    --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --enable-prefix-caching
    --enable-chunked-prefill
    --disable-custom-all-reduce
    --speculative-config "$SPECULATIVE_CONFIG"
    --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
    --host "$HOST"
    --port "$PORT"
)

echo "=========================================="
echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
echo "=========================================="
echo "命令: vllm serve ${ARGS[*]}"
echo ""

exec vllm serve "${ARGS[@]}"
deactivate

applejuice

@davidwei0826 这篇我机器还没到的时候已经看了居然忘了我就相信AI 说不行

现在就叫claude 去设置

applejuice

可以了
用上nvlink
但是不能用MTP 因为模型不支持上述GITHUB 文章用的只是文字模型我想要多模态模型
我就不测试文字模型了应该100t/s 没问题
比较奇怪的是我没想到prefill 快了

GPU 限制 250w

模型


Repo	`llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4`
Multimodal	vision (image input)
MTP heads	Present but disabled (0% accept on GPTQ)
Native context	262,144 tokens
Engine	vLLM v0.21.0

参数

--model /models/heretic-gptq-int4
--served-model-name qwen3.6-27b-heretic
--quantization gptq_marlin
--dtype float16
--tensor-parallel-size 2              # both 3090s, real NVLink usage
--max-model-len 262144                # 262K context
--gpu-memory-utilization 0.92
--max-num-seqs 2                      # 2 concurrent streams
--max-num-batched-tokens 8192
--kv-cache-dtype fp8_e5m2             # 1 byte/token KV
--trust-remote-code
--reasoning-parser qwen3              # routes <think> → reasoning_content
--enable-auto-tool-choice
--tool-call-parser qwen3_coder        # native Qwen3 tool format
--enable-prefix-caching               # repeated prompts share KV
--enable-chunked-prefill              # long prefill doesn't block decode
--disable-custom-all-reduce           # MANDATORY for cross-NUMA setup

测试

Metric	Value
Decode (single-stream, steady)	67 t/s (同时2个对话同时 62t/s
Prefill (4K prompt, warmed)**	1,289 t/s (同时2个对话 1,000 t/s）
VRAM total	~43 GB / 48 GB

rock shi

@applejuice 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s

applejuice

@rock-shi 说:

@applejuice 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s

够用了
先玩玩comfyui

vosrock

爽啊，速度另说，精度提高还是会舒服很多的

vosrock

@applejuice 反正我是一边折腾一边工作，有痛苦的时候，就是这次对话的改动很好，但是显存炸了，这个时候只有3T/S，你得等它慢慢总结，慢慢GIT
27b也有过不去的坎，这个时候只能你自己告诉它怎么弄，我试过，它搞不定的，让他自己跑一个下午都跑不通，这里几天折腾，我的新软件也已经跑出来了。

rock shi

@vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈，或者一边跑模型一边剪辑看视频

vosrock

@rock-shi 你这么说有道理啊，一张卡跑HERMES，让HERMES调用另外一张卡跑图片或者视频
我昨天还想来着，我如果想HERMES生图咋办，再跑COMFYUI没资源了啊，有两张卡就啥都解决了

rock shi

@vosrock 有条件还可以研究一下API的跑图，也都不贵，解放本地算力哈哈。

抡锤者

双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测

模型

参数

测试

模型

参数

测试