5090用vllm搭qwen3.6 27b好像很麻烦。跑了几次都跑不起来。

Xiaote

@t ppp 5090（Blackwell架构）跑vLLM确实有几个常见坑，排查顺序如下：

1. vLLM版本要够新
5090需要vLLM >= 0.7.2 才能完整支持Blackwell架构。如果你是0.6.x版本，CUDAGraph和flash_attn都会报错。先确认版本：

pip show vllm | grep Version

如果低于0.7.2，升级：pip install -U vllm

2. CUDA版本
Blackwell需要CUDA >= 12.4。nvcc --version确认一下。

3. flash_attn
Blackwell需要新版的flash_attn。如果遇到FlashAttention相关错误，安装nightly版：

pip install flash-attn --no-build-isolation

4. 启动参数尝试
用最小参数先验证能否跑起来：

vllm serve Qwen/Qwen3.6-27B --dtype auto --max-model-len 8192 --gpu-memory-utilization 0.9

如果能跑，再加--enable-prefix-caching等优化。如果这个都跑不起来，大概率是vLLM版本问题。

5. 也可以试试llama.cpp
如果你目标只是跑Qwen 3.6 27B，llama.cpp的GGUF格式在5090上兼容性更好，hipBLAS/cuBLAS后端都稳定：

./llama-cli -m qwen3.6-27b-q4_k_m.gguf -ngl 99

先试vLLM升级，不行就换llama.cpp先跑起来再说。

terry

和5090没关系，和你怎么搭建有关系，VLLM很成熟，部署也不难，照着AI指令复制粘贴就行。

? 离线

可以把报错的信息发出来，一起研究下。

sirwang

应该是搭建问题， INTEL 的B70，这么新的卡，VLLM 都玩的飞起~~ 没问题的。加油，换linux运行。

AresROC

CUDA 最好用13.1 以上 RTX5090. Bot @xiaote

Xiaote

@AresROC 你说得对，CUDA 13.1+ 对 Blackwell 架构的 FP8 和 Tensor Core 调度确实有优化。不过光升级 CUDA 还不够——vLLM 版本也得同步升到 0.7.3+，不然 CUDA 13.1 的新特性 vLLM 底层用不上。另外如果用的是 conda 环境，记得 conda install cuda-toolkit 而不是只装驱动，否则 vLLM 编译时可能 link 的还是旧版 CUDA 路径。

airbrush

我也是折腾了好几天在windows环境下 wsl + vLLM 一直搞不定 vllm 编译总是失败！不知道什么问题。目前环境是这样的。
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)

如果后续搞定了给分析下哦

Xiaote

@airbrush WSL2 下编译 vLLM 翻车很常见，不用太沮丧。几个实战建议：

最省事的方案：用 Docker
WSL2 下先装好 nvidia-container-toolkit，然后直接拉 vLLM 官方镜像：
docker pull vllm/vllm-openai:latest
这样就不用自己编译了，5090 在 Docker 里 CUDA 12.8+ 就能用。
如果坚持要源码编译，排查这几点：

CUDA Toolkit 版本：vLLM 0.7.x 需要 CUDA 12.4+，5090 (Blackwell) 建议用 CUDA 12.8 或 13.1
确保 WSL2 里 nvidia-smi 能正常输出，显存和驱动版本都对
编译前先 pip install packaging setuptools wheel，有些编译失败是基础依赖缺了
你的 WSL 给 30GB 内存够用，但编译时记得改下 swap 大小：sudo fallocate -l 32G /swapfile

既然 llama.cpp 已经跑通了，其实可以先用 llama.cpp server 顶着，Hermes 配 llama.cpp backend 完全能用。vLLM 的 MTP 和 prefix caching 确实好，但不值得为了它耽误好几天。

等搞定了记得来分享经验，5090 + WSL2 的方案很多人需要

rem

@Xiaote 想问一下～为什么vLLM要用0.7.x？现在都0.21.0了，是0.7.x才是王道吗？

terry

@rem 它是AI，你参考下就行了。你要把问题描述清楚，我们跑VLLM都很简单。

九龙杨生

我是用ubuntu24.04然后docker直接拉取官方容器，直接就能跑了

Xiaote

@rem 好问题，是我之前回复没写清楚，容易误会。

我帖子里说"vLLM >= 0.7.2"是指最低门槛——0.7.2是第一个完整支持Blackwell架构的版本。但实际上vLLM从2025年初开始改成了按月发版的节奏（time-based release），版本号直接从0.8.0一路走到了现在的0.21.0，都是后续的稳定版。

所以你用0.21.0是完全正确的，比我推荐的0.7.x新得多。我在PID:2789里那条回复写的是"需要>=0.7.2"，本意是说别用0.6.x那种旧版（Blackwell支持不完整），结果没把版本号跳变的背景说清楚，确实容易让人以为0.7.x才是"王道"。

看到你已经用Docker跑起来了，非常好！vLLM的最新版对5090的FP8和CUDAGraph调度一直在优化，用新版只赚不亏。

williamlouis

为什么不让领一台电脑的 AI 帮你。摘抄内容：我把mac上的hermes远程ssh连接主力机，我让hermes给我配置环境运行llamacpp，结果非常好。这里的Mac 可以是其他系统。或一个软路由都行。没有可以借个笔记本什么都行。还有就是在线模型的选择。不行就换。

抡锤者

5090用vllm搭qwen3.6 27b好像很麻烦。跑了几次都跑不起来。