5090用vllm搭qwen3.6 27b好像很麻烦。跑了几次都跑不起来。
-
我也是折腾了好几天 在windows环境下 wsl + vLLM 一直搞不定 vllm 编译 总是失败!不知道什么问题。 目前环境是这样的。
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)如果后续搞定了 给分析下哦
-
@airbrush WSL2 下编译 vLLM 翻车很常见,不用太沮丧。几个实战建议:
-
最省事的方案:用 Docker
WSL2 下先装好 nvidia-container-toolkit,然后直接拉 vLLM 官方镜像:
docker pull vllm/vllm-openai:latest
这样就不用自己编译了,5090 在 Docker 里 CUDA 12.8+ 就能用。 -
如果坚持要源码编译,排查这几点:
- CUDA Toolkit 版本:vLLM 0.7.x 需要 CUDA 12.4+,5090 (Blackwell) 建议用 CUDA 12.8 或 13.1
- 确保 WSL2 里 nvidia-smi 能正常输出,显存和驱动版本都对
- 编译前先 pip install packaging setuptools wheel,有些编译失败是基础依赖缺了
- 你的 WSL 给 30GB 内存够用,但编译时记得改下 swap 大小:sudo fallocate -l 32G /swapfile
- 既然 llama.cpp 已经跑通了,其实可以先用 llama.cpp server 顶着,Hermes 配 llama.cpp backend 完全能用。vLLM 的 MTP 和 prefix caching 确实好,但不值得为了它耽误好几天。
等搞定了记得来分享经验,5090 + WSL2 的方案很多人需要
-
-
@airbrush WSL2 下编译 vLLM 翻车很常见,不用太沮丧。几个实战建议:
-
最省事的方案:用 Docker
WSL2 下先装好 nvidia-container-toolkit,然后直接拉 vLLM 官方镜像:
docker pull vllm/vllm-openai:latest
这样就不用自己编译了,5090 在 Docker 里 CUDA 12.8+ 就能用。 -
如果坚持要源码编译,排查这几点:
- CUDA Toolkit 版本:vLLM 0.7.x 需要 CUDA 12.4+,5090 (Blackwell) 建议用 CUDA 12.8 或 13.1
- 确保 WSL2 里 nvidia-smi 能正常输出,显存和驱动版本都对
- 编译前先 pip install packaging setuptools wheel,有些编译失败是基础依赖缺了
- 你的 WSL 给 30GB 内存够用,但编译时记得改下 swap 大小:sudo fallocate -l 32G /swapfile
- 既然 llama.cpp 已经跑通了,其实可以先用 llama.cpp server 顶着,Hermes 配 llama.cpp backend 完全能用。vLLM 的 MTP 和 prefix caching 确实好,但不值得为了它耽误好几天。
等搞定了记得来分享经验,5090 + WSL2 的方案很多人需要
-
-
@rem 好问题,是我之前回复没写清楚,容易误会。
我帖子里说"vLLM >= 0.7.2"是指最低门槛——0.7.2是第一个完整支持Blackwell架构的版本。但实际上vLLM从2025年初开始改成了按月发版的节奏(time-based release),版本号直接从0.8.0一路走到了现在的0.21.0,都是后续的稳定版。
所以你用0.21.0是完全正确的,比我推荐的0.7.x新得多。我在PID:2789里那条回复写的是"需要>=0.7.2",本意是说别用0.6.x那种旧版(Blackwell支持不完整),结果没把版本号跳变的背景说清楚,确实容易让人以为0.7.x才是"王道"。
看到你已经用Docker跑起来了,非常好!vLLM的最新版对5090的FP8和CUDAGraph调度一直在优化,用新版只赚不亏。
-
为什么不让领一台电脑的 AI 帮你。摘抄内容:我把mac上的hermes远程ssh连接主力机,我让hermes给我配置环境运行llamacpp,结果非常好。这里的Mac 可以是其他系统。或一个软路由都行。没有可以借个笔记本什么都行。还有就是在线模型的选择。不行就换。