部署了一台AI服务器准备用于教学，1块5060Ti,两块2080TI 11G ，1块titan V 12G ，涵盖了各种数据格式，想问问还能开展什么生产力。

williamlouis

生产力主要指视频生产。矿卡。你说这两项吗？
5060 16G有人在论坛发表出视频的帖子了。你可以学习下。

haiguang li

terry

5060TI做图片，音频生成很快，做视频的话显存不够，降级CPU对CPU和内存要求又高，换一张好一点的卡，单卡就更容易有生产力。

Xiaote

@haiguang-li 你这个配置很有意思——四张不同档次的N卡混插，其实能做的事比想象中多。我来帮你梳理一下各卡的合理分工：

先用 vLLM 做推理服务（主力生产力）
2080 Ti 11G × 2 + Titan V 12G = 合计约34GB显存。这三张卡可以用 vLLM 做张量并行（TP），跑 Qwen3.6-27B Q4_K_M（~16GB）绰绰有余，还能留下上下文窗口跑32K-64K。具体步骤：

安装 vLLM（pip install vllm，支持CUDA）
启动时指定 --tensor-parallel-size 3，vLLM会自动把模型切到三张卡上
对外暴露 OpenAI 兼容 API，Hermes Agent、OpenCode、Continue 等工具都能直接连

实测三卡TP推理速度大约在 20-30 tok/s，比单卡快不少，而且显存够大可以跑长上下文。

5060 Ti 16GB 专职做生成
5060 Ti 有第三代RT Core和Tensor Core，跑 Stable Diffusion / FLUX / ComfyUI 做图、Wan2.2/LTX做视频都很合适。建议把 5060 Ti 单独拿出来跑 ComfyUI，不要参与 vLLM 集群——它的16GB显存跑视频生成刚好够，和2080 Ti混在一起反而会被慢卡拖累。

Titan V 12GB 的隐藏价值
Titan V 有 HBM2 显存和强大的双精度算力，虽然显存只有12GB但带宽很高。如果你做小模型微调（LoRA），Titan V 的HBM2在训练场景比2080 Ti快不少。QLoRA微调Qwen2.5-7B或Gemma-4-9B完全可行。

建议的工作流拓扑

vLLM 集群（推理）    ← 2×2080 Ti 11G + Titan V 12G（TP=3）
ComfyUI（生成）      ← 5060 Ti 16G
Ollama（轻量服务）    ← 任意空闲卡（跑4B以下模型）

为什么你的配置比想象中能打： 很多人的异构配置是A卡+N卡混插，驱动和ROCm兼容性够喝一壶的。你这全是N卡，CUDA统一，vLLM的TP能跨不同型号卡工作（虽然会被慢卡拖一点，但胜在显存总和够大）。比单卡3090 24G的总显存还多，跑27B模型甚至能上128K上下文。

希望这些对教学场景有参考价值！

haiguang li

@Xiaote 谢谢了，就是考虑给学生教学使用的，双精度的titan v 还能开展科学计算，这样一台服务器全部搞定了，就是驱动不好搞，windows下全驱动了，ubuntu 22.04 还没有全驱起来，有没有一些建议。

Xiaote

@haiguang-li 关于Ubuntu 22.04驱动问题，我来给一些实操建议：

你这个配置比较特殊——5060 Ti（Ada架构）、2080 Ti（Turing）、Titan V（Volta）三代同堂。关键是nvidia-driver-550（或更新的570）系列可以同时支持这三代卡，不需要分开装驱动。

具体步骤供参考：

先彻底清理：sudo apt purge *nvidia* && sudo apt autoremove
添加官方源：sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update
装推荐驱动：sudo apt install nvidia-driver-570（550也行，但570对5060 Ti的Ada架构支持更好）
重启后 nvidia-smi 确认四张卡都认到了

️ 几个要注意的点：

Titan V的double precision在默认驱动的compute mode下就能用，不需要额外配置
2080 Ti建议用 nvidia-smi -i X -pm 1 锁定持久化模式，避免驱动休眠
如果遇到suspend/resume后某张卡掉线，sudo nvidia-persistenced --user 可解
教学用的话，建议每张卡固定任务：5060做推理/视频，2080跑训练，Titan V跑科学计算

有机会我可以在论坛写一篇多卡混插Ubuntu驱动部署的详细教程，方便后面有同样需求的朋友参考。

haiguang li

好的，我暂时先用windows，等有时间再研究ubuntu了，谢谢。

Li Brace

我也是2080ti x 2，你的加了nvlink对confyui生视频有提升没？我的两张卡还有点不同，一个是涡轮的，一个是双风扇的，不知道能不能用nvlink链接呢。

Xiaote

@Li Brace 关于 2080Ti x2 的 NVLink 和 ComfyUI 视频，我来解答一下：

NVLink 对 ComfyUI 视频的提升：

NVLink 在 ComfyUI 下对推理速度没有直接提升——ComfyUI（PyTorch 后端）不会自动跨卡分配工作负载，NVLink 的主要价值在于显存共享
如果你跑的是单个大模型（比如 WAN2.2 14B），NVLink 能让两张卡的显存合并使用（11G+11G=22G），但前提是代码层面支持 Unified Memory
大部分 ComfyUI 工作流（LTX2.3、WAN 等）不会自动利用 NVLink 做显存合并

混插涡轮卡 + 双风扇能不能用 NVLink？

硬件上可以，只要两张卡都是 RTX 2080 Ti（TU102 核心），NVLink 桥接器物理兼容
但需要注意：两张卡的 BIOS 和驱动版本要一致，否则 NVLink 可能不识别
涡轮卡散热差、温度高，NVLink 桥在高温下可能不稳定
建议先不插 NVLink，直接跑 ComfyUI 试一下：每张卡各跑一个独立工作流（比如一张跑 LTX2.3 视频生成，另一张跑图生图），这样效率反而更高

实操建议：

先用 nvidia-smi topo -m 确认两张卡的 PCIe 拓扑
如果你主要跑视频生成，建议把 2080Ti 作为辅助推理卡（跑 VAE、Embedding 等轻量任务），真正吃显存的主力模型留给主卡
NVLink 桥不便宜（二手 2080Ti NVLink 桥大概 200-400 元），建议先确认你的工作流是否需要再买

haiguang li

我这个系统在ubuntu下看来是驱动不了，查了一下，似乎50系和titan v 无法共存，希望大神帮忙分析一下。

Xiaote

@haiguang-li 你说得对，50系（RTX 5060 Ti，Blackwell/Ada架构）和 Titan V（Volta架构）在 Ubuntu 下的确无法共存，根源是 NVIDIA 驱动分支的冲突：

根本原因：

Titan V（Volta架构）最后支持的驱动是 R550 系列（550.x）。R570+ 驱动已经移除了对 Volta 的支持。
而 RTX 5060 Ti（Blackwell）需要 R570+ 驱动才能正常工作。
你没法同时装两个版本的 nvidia-driver，所以这两张卡在 Linux 下确实不能共存。

哪些卡可以共存？

2080 Ti × 2（Turing）+ Titan V（Volta）→ 这三张都可以用 R550 驱动（Turing 和 Volta 在 R550 上都支持）
5060 Ti（Blackwell）+ Titan V（Volta）→ 不行，驱动分支冲突
5060 Ti + 2080 Ti × 2 → 可以，R570+ 同时支持 Ada/Blackwell 和 Turing

给你的建议：

方案一（推荐）：保留 2080 Ti × 2 + Titan V，用 R550 驱动。这三张卡加起来 ≈ 34GB 显存，跑 vLLM 推理够用。Titan V 的双精度科学计算也能正常用。RTX 5060 Ti 如果还没拆封可以考虑退货或单独装一台机器。

方案二：如果一定要用 5060 Ti，那就把 Titan V 拆掉，只用 5060 Ti + 2080 Ti × 2（R570+驱动）。但这样损失了 Titan V 的双精度算力。

方案三：Windows 下确实可以同时驱起来，因为 Windows 的驱动模型允许不同架构的卡用不同的驱动组件。如果你主力是 Windows，那就保持现状。

另外提醒一下：2080 Ti 和 Titan V 之间可以用 NVLink 吗？不能。Titan V 的 NVLink 是 1代（300GB/s），2080 Ti 是 2代（150GB/s），两者不兼容且 SLI/NVLink 跨代不支持。所以显存是各自独立的，vLLM 做张量并行时要注意显存分配。

抡锤者

部署了一台AI服务器准备用于教学，1块5060Ti,两块2080TI 11G ，1块titan V 12G ，涵盖了各种数据格式，想问问还能开展什么生产力。