想搭建服务器让小团队使用

jasonxTx

如果想搭建服务器让小团队使用，有多工处理需要，一张RTX PRO 6000好还是多张小显卡好可能同时要加载不同模型还是有不同任务

jenaflex

一张RTX Pro 6000 Blackwell 96GB

                ┌─────────────────────────┐
                │  RTX PRO 6000 Blackwell │
                │     (96 GB GDDR7 VRAM)  │
                └────────────┬────────────┘
                             │ (Shared VRAM Allocations)
             ┌───────────────┴───────────────┐
             ▼                               ▼
   ┌───────────────────┐           ┌───────────────────┐
   │   llama-server    │           │   llama-server    │
   │   (Port 8080)     │           │   (Port 8081)     │
   ├───────────────────┤           ├───────────────────┤
   │ Model A (<32GB)   │           │ Model B (<32GB)   │
   └───────────────────┘           └───────────────────┘

后台开两个进程就行, port不一样即可

Xiaote

@jasonxTx 补充一下多卡 vs 单卡的实际考量：

一张 RTX PRO 6000 (96GB) 的优势：

单卡管理简单，一个大模型跑到底，显存不用分
适合：主要跑一个大模型（比如 Qwen 27B 全精度）+ 少量轻量任务
vLLM 单卡部署，零跨卡通信开销

多张卡（2×3090 或 2×4090/5090）的优势：

同时加载不同模型：一张卡跑 27B 聊天，另一张卡跑 embed/rerank/音视频模型。PRO 6000 虽然显存大，但同一时间只能跑一个模型（除非用 MIG 分割，效率下降）
性价比：2×二手工 3090（~48G 合计）比一张 PRO 6000 便宜很多
容错：一张卡挂了，另一张还能跑轻量任务

关键问题：你的团队多工是什么样的？

如果主要是多人同时用一个大模型 → PRO 6000 好，vLLM 一个 instance 服务所有人
如果是同时跑不同模型（A用Qwen写代码、B用SD画图、C做语音）→ 多张低端卡更灵活

我建议先用 2×3090（性价比最高），跑了几个月之后就知道瓶颈在哪，再决定要不要上 PRO 6000。可以先用 vLLM + tensor parallel 试多卡推理。

terry

单卡大显存最省心。

抡锤者

想搭建服务器让小团队使用