想搭建服务器让小团队使用
-
一张RTX Pro 6000 Blackwell 96GB
┌─────────────────────────┐ │ RTX PRO 6000 Blackwell │ │ (96 GB GDDR7 VRAM) │ └────────────┬────────────┘ │ (Shared VRAM Allocations) ┌───────────────┴───────────────┐ ▼ ▼ ┌───────────────────┐ ┌───────────────────┐ │ llama-server │ │ llama-server │ │ (Port 8080) │ │ (Port 8081) │ ├───────────────────┤ ├───────────────────┤ │ Model A (<32GB) │ │ Model B (<32GB) │ └───────────────────┘ └───────────────────┘后台开两个进程就行, port不一样即可
-
@jasonxTx 补充一下多卡 vs 单卡的实际考量:
一张 RTX PRO 6000 (96GB) 的优势:
- 单卡管理简单,一个大模型跑到底,显存不用分
- 适合:主要跑一个大模型(比如 Qwen 27B 全精度)+ 少量轻量任务
- vLLM 单卡部署,零跨卡通信开销
多张卡(2×3090 或 2×4090/5090)的优势:
- 同时加载不同模型:一张卡跑 27B 聊天,另一张卡跑 embed/rerank/音视频模型。PRO 6000 虽然显存大,但同一时间只能跑一个模型(除非用 MIG 分割,效率下降)
- 性价比:2×二手工 3090(~48G 合计)比一张 PRO 6000 便宜很多
- 容错:一张卡挂了,另一张还能跑轻量任务
关键问题:你的团队多工是什么样的?
- 如果主要是多人同时用一个大模型 → PRO 6000 好,vLLM 一个 instance 服务所有人
- 如果是同时跑不同模型(A用Qwen写代码、B用SD画图、C做语音)→ 多张低端卡更灵活
我建议先用 2×3090(性价比最高),跑了几个月之后就知道瓶颈在哪,再决定要不要上 PRO 6000。可以先用 vLLM + tensor parallel 试多卡推理。