抡锤者

airbrush

我也是折腾了好几天在windows环境下 wsl + vLLM 一直搞不定 vllm 编译总是失败！不知道什么问题。目前环境是这样的。
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)

如果后续搞定了给分析下哦

airbrush

@Trypt-Wang 5090 32G卡开不到256k上下文吧，如果搞定了给分析哦 ~！

airbrush

@terry 锤兄你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗？

apex版本又是哪个版本？是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ？

小白还不太懂

airbrush

@Liang-Wang 5090的性能情况供参考

Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)

~/llama.cpp/build/bin/llama-bench
--model ~/models/Qwen3-27B/Qwen3.6-27B-Q5_K_M.gguf
--n-gpu-layers 999
--flash-attn 1
-p 512,4096,32768
-n 128
ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32606 MiB):
Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32606 MiB

model	size	params	backend	ngl	fa	test	t/s
qwen35 27B Q5_K - Medium	18.46 GiB	27.32 B	CUDA	999	1	pp512	3563.38 ± 231.17
qwen35 27B Q5_K - Medium	18.46 GiB	27.32 B	CUDA	999	1	pp4096	3498.68 ± 9.65
qwen35 27B Q5_K - Medium	18.46 GiB	27.32 B	CUDA	999	1	pp32768	3340.48 ± 350.69
qwen35 27B Q5_K - Medium	18.46 GiB	27.32 B	CUDA	999	1	tg128	62.49 ± 0.99

build: d14ce3dab (9235)

airbrush

@Trypt-Wang 我现在是windows环境下搭建的本地模型，3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉显存占用31GB；3.6-27B-Q5_K_M上下文96k 显存29GB

Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)

RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB ️ 几乎耗尽

我也是刚开始学习弄本地模型，基本就是小白，但是给我最大的感受是显存大才是王道！64k的上下文基本不够用，让AI写了个页面数据看板的小功能，让他改些问题，来回沟通个不了10次就满上下文了，显存大，上下文大才是高效使用的关键！@王一民另外我也这几天也看了 RTX PRO 6000的工作站版本这几天好像已经8.5多了吧，7.2没这个价了吧

另外我小白是不是哪些搭建环境配置不太合理，如何搭建会更好些，锤兄给把把脉，感谢！@terry

抡锤者

airbrush

帖子