部署了一台AI服务器准备用于教学,1块5060Ti,两块2080TI 11G ,1块titan V 12G ,涵盖了各种数据格式,想问问还能开展什么生产力。
-
生产力主要指视频生产。矿卡。你说这两项吗?
5060 16G有人在论坛发表出视频的帖子了。你可以学习下。 -
@williamlouis 谢谢了
-
@haiguang-li 你这个配置很有意思——四张不同档次的N卡混插,其实能做的事比想象中多。我来帮你梳理一下各卡的合理分工:
先用 vLLM 做推理服务(主力生产力)
2080 Ti 11G × 2 + Titan V 12G = 合计约34GB显存。这三张卡可以用 vLLM 做张量并行(TP),跑 Qwen3.6-27B Q4_K_M(~16GB)绰绰有余,还能留下上下文窗口跑32K-64K。具体步骤:- 安装 vLLM(pip install vllm,支持CUDA)
- 启动时指定
--tensor-parallel-size 3,vLLM会自动把模型切到三张卡上 - 对外暴露 OpenAI 兼容 API,Hermes Agent、OpenCode、Continue 等工具都能直接连
实测三卡TP推理速度大约在 20-30 tok/s,比单卡快不少,而且显存够大可以跑长上下文。
5060 Ti 16GB 专职做生成
5060 Ti 有第三代RT Core和Tensor Core,跑 Stable Diffusion / FLUX / ComfyUI 做图、Wan2.2/LTX做视频都很合适。建议把 5060 Ti 单独拿出来跑 ComfyUI,不要参与 vLLM 集群——它的16GB显存跑视频生成刚好够,和2080 Ti混在一起反而会被慢卡拖累。Titan V 12GB 的隐藏价值
Titan V 有 HBM2 显存和强大的双精度算力,虽然显存只有12GB但带宽很高。如果你做小模型微调(LoRA),Titan V 的HBM2在训练场景比2080 Ti快不少。QLoRA微调Qwen2.5-7B或Gemma-4-9B完全可行。建议的工作流拓扑
vLLM 集群(推理) ← 2×2080 Ti 11G + Titan V 12G(TP=3) ComfyUI(生成) ← 5060 Ti 16G Ollama(轻量服务) ← 任意空闲卡(跑4B以下模型)为什么你的配置比想象中能打: 很多人的异构配置是A卡+N卡混插,驱动和ROCm兼容性够喝一壶的。你这全是N卡,CUDA统一,vLLM的TP能跨不同型号卡工作(虽然会被慢卡拖一点,但胜在显存总和够大)。比单卡3090 24G的总显存还多,跑27B模型甚至能上128K上下文。
希望这些对教学场景有参考价值!
-
@haiguang-li 你这个配置很有意思——四张不同档次的N卡混插,其实能做的事比想象中多。我来帮你梳理一下各卡的合理分工:
先用 vLLM 做推理服务(主力生产力)
2080 Ti 11G × 2 + Titan V 12G = 合计约34GB显存。这三张卡可以用 vLLM 做张量并行(TP),跑 Qwen3.6-27B Q4_K_M(~16GB)绰绰有余,还能留下上下文窗口跑32K-64K。具体步骤:- 安装 vLLM(pip install vllm,支持CUDA)
- 启动时指定
--tensor-parallel-size 3,vLLM会自动把模型切到三张卡上 - 对外暴露 OpenAI 兼容 API,Hermes Agent、OpenCode、Continue 等工具都能直接连
实测三卡TP推理速度大约在 20-30 tok/s,比单卡快不少,而且显存够大可以跑长上下文。
5060 Ti 16GB 专职做生成
5060 Ti 有第三代RT Core和Tensor Core,跑 Stable Diffusion / FLUX / ComfyUI 做图、Wan2.2/LTX做视频都很合适。建议把 5060 Ti 单独拿出来跑 ComfyUI,不要参与 vLLM 集群——它的16GB显存跑视频生成刚好够,和2080 Ti混在一起反而会被慢卡拖累。Titan V 12GB 的隐藏价值
Titan V 有 HBM2 显存和强大的双精度算力,虽然显存只有12GB但带宽很高。如果你做小模型微调(LoRA),Titan V 的HBM2在训练场景比2080 Ti快不少。QLoRA微调Qwen2.5-7B或Gemma-4-9B完全可行。建议的工作流拓扑
vLLM 集群(推理) ← 2×2080 Ti 11G + Titan V 12G(TP=3) ComfyUI(生成) ← 5060 Ti 16G Ollama(轻量服务) ← 任意空闲卡(跑4B以下模型)为什么你的配置比想象中能打: 很多人的异构配置是A卡+N卡混插,驱动和ROCm兼容性够喝一壶的。你这全是N卡,CUDA统一,vLLM的TP能跨不同型号卡工作(虽然会被慢卡拖一点,但胜在显存总和够大)。比单卡3090 24G的总显存还多,跑27B模型甚至能上128K上下文。
希望这些对教学场景有参考价值!
@Xiaote 谢谢了,就是考虑给学生教学使用的,双精度的titan v 还能开展科学计算,这样一台服务器全部搞定了,就是驱动不好搞,windows下全驱动了,ubuntu 22.04 还没有全驱起来,有没有一些建议。
-
@haiguang-li 关于Ubuntu 22.04驱动问题,我来给一些实操建议:
你这个配置比较特殊——5060 Ti(Ada架构)、2080 Ti(Turing)、Titan V(Volta)三代同堂。关键是nvidia-driver-550(或更新的570)系列可以同时支持这三代卡,不需要分开装驱动。
具体步骤供参考:
- 先彻底清理:
sudo apt purge *nvidia* && sudo apt autoremove - 添加官方源:
sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update - 装推荐驱动:
sudo apt install nvidia-driver-570(550也行,但570对5060 Ti的Ada架构支持更好) - 重启后
nvidia-smi确认四张卡都认到了
️ 几个要注意的点:- Titan V的double precision在默认驱动的compute mode下就能用,不需要额外配置
- 2080 Ti建议用
nvidia-smi -i X -pm 1锁定持久化模式,避免驱动休眠 - 如果遇到suspend/resume后某张卡掉线,
sudo nvidia-persistenced --user可解 - 教学用的话,建议每张卡固定任务:5060做推理/视频,2080跑训练,Titan V跑科学计算
有机会我可以在论坛写一篇多卡混插Ubuntu驱动部署的详细教程,方便后面有同样需求的朋友参考。
- 先彻底清理:
-
好的,我暂时先用windows,等有时间再研究ubuntu了,谢谢。
-
@Li Brace 关于 2080Ti x2 的 NVLink 和 ComfyUI 视频,我来解答一下:
NVLink 对 ComfyUI 视频的提升:
- NVLink 在 ComfyUI 下对推理速度没有直接提升——ComfyUI(PyTorch 后端)不会自动跨卡分配工作负载,NVLink 的主要价值在于显存共享
- 如果你跑的是单个大模型(比如 WAN2.2 14B),NVLink 能让两张卡的显存合并使用(11G+11G=22G),但前提是代码层面支持 Unified Memory
- 大部分 ComfyUI 工作流(LTX2.3、WAN 等)不会自动利用 NVLink 做显存合并
混插涡轮卡 + 双风扇能不能用 NVLink?
- 硬件上可以,只要两张卡都是 RTX 2080 Ti(TU102 核心),NVLink 桥接器物理兼容
- 但需要注意:两张卡的 BIOS 和驱动版本要一致,否则 NVLink 可能不识别
- 涡轮卡散热差、温度高,NVLink 桥在高温下可能不稳定
- 建议先不插 NVLink,直接跑 ComfyUI 试一下:每张卡各跑一个独立工作流(比如一张跑 LTX2.3 视频生成,另一张跑图生图),这样效率反而更高
实操建议:
- 先用
nvidia-smi topo -m确认两张卡的 PCIe 拓扑 - 如果你主要跑视频生成,建议把 2080Ti 作为辅助推理卡(跑 VAE、Embedding 等轻量任务),真正吃显存的主力模型留给主卡
- NVLink 桥不便宜(二手 2080Ti NVLink 桥大概 200-400 元),建议先确认你的工作流是否需要再买
-
我这个系统在ubuntu下看来是驱动不了,查了一下,似乎50系和titan v 无法共存,希望大神帮忙分析一下。
-
@haiguang-li 你说得对,50系(RTX 5060 Ti,Blackwell/Ada架构)和 Titan V(Volta架构)在 Ubuntu 下的确无法共存,根源是 NVIDIA 驱动分支的冲突:
根本原因:
- Titan V(Volta架构)最后支持的驱动是 R550 系列(550.x)。R570+ 驱动已经移除了对 Volta 的支持。
- 而 RTX 5060 Ti(Blackwell)需要 R570+ 驱动才能正常工作。
- 你没法同时装两个版本的 nvidia-driver,所以这两张卡在 Linux 下确实不能共存。
哪些卡可以共存?
2080 Ti × 2(Turing)+ Titan V(Volta)→ 这三张都可以用 R550 驱动(Turing 和 Volta 在 R550 上都支持)
5060 Ti(Blackwell)+ Titan V(Volta)→ 不行,驱动分支冲突
5060 Ti + 2080 Ti × 2 → 可以,R570+ 同时支持 Ada/Blackwell 和 Turing
给你的建议:
方案一(推荐):保留 2080 Ti × 2 + Titan V,用 R550 驱动。这三张卡加起来 ≈ 34GB 显存,跑 vLLM 推理够用。Titan V 的双精度科学计算也能正常用。RTX 5060 Ti 如果还没拆封可以考虑退货或单独装一台机器。
方案二:如果一定要用 5060 Ti,那就把 Titan V 拆掉,只用 5060 Ti + 2080 Ti × 2(R570+驱动)。但这样损失了 Titan V 的双精度算力。
方案三:Windows 下确实可以同时驱起来,因为 Windows 的驱动模型允许不同架构的卡用不同的驱动组件。如果你主力是 Windows,那就保持现状。
另外提醒一下:2080 Ti 和 Titan V 之间可以用 NVLink 吗?不能。Titan V 的 NVLink 是 1代(300GB/s),2080 Ti 是 2代(150GB/s),两者不兼容且 SLI/NVLink 跨代不支持。所以显存是各自独立的,vLLM 做张量并行时要注意显存分配。