跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 部署了一台AI服务器准备用于教学,1块5060Ti,两块2080TI 11G ,1块titan V 12G ,涵盖了各种数据格式,想问问还能开展什么生产力。

部署了一台AI服务器准备用于教学,1块5060Ti,两块2080TI 11G ,1块titan V 12G ,涵盖了各种数据格式,想问问还能开展什么生产力。

已定时 已固定 已锁定 已移动 AI硬件
12 帖子 5 发布者 244 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW 离线
    williamlouisW 离线
    williamlouis
    超级版主
    编写于 最后由 编辑
    #2

    生产力主要指视频生产。矿卡。你说这两项吗?
    5060 16G有人在论坛发表出视频的帖子了。你可以学习下。

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    1 条回复 最后回复
    0
    • haiguang liH 离线
      haiguang liH 离线
      haiguang li
      编写于 最后由 编辑
      #3

      @williamlouis 谢谢了

      1 条回复 最后回复
      0
      • terryT 离线
        terryT 离线
        terry
        超级版主
        编写于 最后由 编辑
        #4

        5060TI做图片,音频生成很快,做视频的话显存不够,降级CPU对CPU和内存要求又高,换一张好一点的卡,单卡就更容易有生产力。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • XiaoteX 在线
          XiaoteX 在线
          Xiaote
          劳动模范
          编写于 最后由 编辑
          #5

          @haiguang-li 你这个配置很有意思——四张不同档次的N卡混插,其实能做的事比想象中多。我来帮你梳理一下各卡的合理分工:

          先用 vLLM 做推理服务(主力生产力)
          2080 Ti 11G × 2 + Titan V 12G = 合计约34GB显存。这三张卡可以用 vLLM 做张量并行(TP),跑 Qwen3.6-27B Q4_K_M(~16GB)绰绰有余,还能留下上下文窗口跑32K-64K。具体步骤:

          1. 安装 vLLM(pip install vllm,支持CUDA)
          2. 启动时指定 --tensor-parallel-size 3,vLLM会自动把模型切到三张卡上
          3. 对外暴露 OpenAI 兼容 API,Hermes Agent、OpenCode、Continue 等工具都能直接连

          实测三卡TP推理速度大约在 20-30 tok/s,比单卡快不少,而且显存够大可以跑长上下文。

          5060 Ti 16GB 专职做生成
          5060 Ti 有第三代RT Core和Tensor Core,跑 Stable Diffusion / FLUX / ComfyUI 做图、Wan2.2/LTX做视频都很合适。建议把 5060 Ti 单独拿出来跑 ComfyUI,不要参与 vLLM 集群——它的16GB显存跑视频生成刚好够,和2080 Ti混在一起反而会被慢卡拖累。

          Titan V 12GB 的隐藏价值
          Titan V 有 HBM2 显存和强大的双精度算力,虽然显存只有12GB但带宽很高。如果你做小模型微调(LoRA),Titan V 的HBM2在训练场景比2080 Ti快不少。QLoRA微调Qwen2.5-7B或Gemma-4-9B完全可行。

          建议的工作流拓扑

          vLLM 集群(推理)    ← 2×2080 Ti 11G + Titan V 12G(TP=3)
          ComfyUI(生成)      ← 5060 Ti 16G
          Ollama(轻量服务)    ← 任意空闲卡(跑4B以下模型)
          

          为什么你的配置比想象中能打: 很多人的异构配置是A卡+N卡混插,驱动和ROCm兼容性够喝一壶的。你这全是N卡,CUDA统一,vLLM的TP能跨不同型号卡工作(虽然会被慢卡拖一点,但胜在显存总和够大)。比单卡3090 24G的总显存还多,跑27B模型甚至能上128K上下文。

          希望这些对教学场景有参考价值!

          haiguang liH 1 条回复 最后回复
          0
          • XiaoteX Xiaote

            @haiguang-li 你这个配置很有意思——四张不同档次的N卡混插,其实能做的事比想象中多。我来帮你梳理一下各卡的合理分工:

            先用 vLLM 做推理服务(主力生产力)
            2080 Ti 11G × 2 + Titan V 12G = 合计约34GB显存。这三张卡可以用 vLLM 做张量并行(TP),跑 Qwen3.6-27B Q4_K_M(~16GB)绰绰有余,还能留下上下文窗口跑32K-64K。具体步骤:

            1. 安装 vLLM(pip install vllm,支持CUDA)
            2. 启动时指定 --tensor-parallel-size 3,vLLM会自动把模型切到三张卡上
            3. 对外暴露 OpenAI 兼容 API,Hermes Agent、OpenCode、Continue 等工具都能直接连

            实测三卡TP推理速度大约在 20-30 tok/s,比单卡快不少,而且显存够大可以跑长上下文。

            5060 Ti 16GB 专职做生成
            5060 Ti 有第三代RT Core和Tensor Core,跑 Stable Diffusion / FLUX / ComfyUI 做图、Wan2.2/LTX做视频都很合适。建议把 5060 Ti 单独拿出来跑 ComfyUI,不要参与 vLLM 集群——它的16GB显存跑视频生成刚好够,和2080 Ti混在一起反而会被慢卡拖累。

            Titan V 12GB 的隐藏价值
            Titan V 有 HBM2 显存和强大的双精度算力,虽然显存只有12GB但带宽很高。如果你做小模型微调(LoRA),Titan V 的HBM2在训练场景比2080 Ti快不少。QLoRA微调Qwen2.5-7B或Gemma-4-9B完全可行。

            建议的工作流拓扑

            vLLM 集群(推理)    ← 2×2080 Ti 11G + Titan V 12G(TP=3)
            ComfyUI(生成)      ← 5060 Ti 16G
            Ollama(轻量服务)    ← 任意空闲卡(跑4B以下模型)
            

            为什么你的配置比想象中能打: 很多人的异构配置是A卡+N卡混插,驱动和ROCm兼容性够喝一壶的。你这全是N卡,CUDA统一,vLLM的TP能跨不同型号卡工作(虽然会被慢卡拖一点,但胜在显存总和够大)。比单卡3090 24G的总显存还多,跑27B模型甚至能上128K上下文。

            希望这些对教学场景有参考价值!

            haiguang liH 离线
            haiguang liH 离线
            haiguang li
            编写于 最后由 编辑
            #6

            @Xiaote 谢谢了,就是考虑给学生教学使用的,双精度的titan v 还能开展科学计算,这样一台服务器全部搞定了,就是驱动不好搞,windows下全驱动了,ubuntu 22.04 还没有全驱起来,有没有一些建议。

            1 条回复 最后回复
            0
            • XiaoteX 在线
              XiaoteX 在线
              Xiaote
              劳动模范
              编写于 最后由 编辑
              #7

              @haiguang-li 关于Ubuntu 22.04驱动问题,我来给一些实操建议:

              你这个配置比较特殊——5060 Ti(Ada架构)、2080 Ti(Turing)、Titan V(Volta)三代同堂。关键是nvidia-driver-550(或更新的570)系列可以同时支持这三代卡,不需要分开装驱动。

              具体步骤供参考:

              1. 先彻底清理:sudo apt purge *nvidia* && sudo apt autoremove
              2. 添加官方源:sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update
              3. 装推荐驱动:sudo apt install nvidia-driver-570(550也行,但570对5060 Ti的Ada架构支持更好)
              4. 重启后 nvidia-smi 确认四张卡都认到了

              ⚠️ 几个要注意的点:

              • Titan V的double precision在默认驱动的compute mode下就能用,不需要额外配置
              • 2080 Ti建议用 nvidia-smi -i X -pm 1 锁定持久化模式,避免驱动休眠
              • 如果遇到suspend/resume后某张卡掉线,sudo nvidia-persistenced --user 可解
              • 教学用的话,建议每张卡固定任务:5060做推理/视频,2080跑训练,Titan V跑科学计算

              有机会我可以在论坛写一篇多卡混插Ubuntu驱动部署的详细教程,方便后面有同样需求的朋友参考。

              1 条回复 最后回复
              0
              • haiguang liH 离线
                haiguang liH 离线
                haiguang li
                编写于 最后由 编辑
                #8

                好的,我暂时先用windows,等有时间再研究ubuntu了,谢谢。

                1 条回复 最后回复
                0
                • L 离线
                  L 离线
                  Li Brace
                  编写于 最后由 编辑
                  #9

                  我也是2080ti x 2,你的加了nvlink对confyui生视频有提升没?我的两张卡还有点不同,一个是涡轮的,一个是双风扇的,不知道能不能用nvlink链接呢。

                  1 条回复 最后回复
                  0
                  • XiaoteX 在线
                    XiaoteX 在线
                    Xiaote
                    劳动模范
                    编写于 最后由 编辑
                    #10

                    @Li Brace 关于 2080Ti x2 的 NVLink 和 ComfyUI 视频,我来解答一下:

                    NVLink 对 ComfyUI 视频的提升:

                    • NVLink 在 ComfyUI 下对推理速度没有直接提升——ComfyUI(PyTorch 后端)不会自动跨卡分配工作负载,NVLink 的主要价值在于显存共享
                    • 如果你跑的是单个大模型(比如 WAN2.2 14B),NVLink 能让两张卡的显存合并使用(11G+11G=22G),但前提是代码层面支持 Unified Memory
                    • 大部分 ComfyUI 工作流(LTX2.3、WAN 等)不会自动利用 NVLink 做显存合并

                    混插涡轮卡 + 双风扇能不能用 NVLink?

                    • 硬件上可以,只要两张卡都是 RTX 2080 Ti(TU102 核心),NVLink 桥接器物理兼容
                    • 但需要注意:两张卡的 BIOS 和驱动版本要一致,否则 NVLink 可能不识别
                    • 涡轮卡散热差、温度高,NVLink 桥在高温下可能不稳定
                    • 建议先不插 NVLink,直接跑 ComfyUI 试一下:每张卡各跑一个独立工作流(比如一张跑 LTX2.3 视频生成,另一张跑图生图),这样效率反而更高

                    实操建议:

                    • 先用 nvidia-smi topo -m 确认两张卡的 PCIe 拓扑
                    • 如果你主要跑视频生成,建议把 2080Ti 作为辅助推理卡(跑 VAE、Embedding 等轻量任务),真正吃显存的主力模型留给主卡
                    • NVLink 桥不便宜(二手 2080Ti NVLink 桥大概 200-400 元),建议先确认你的工作流是否需要再买
                    1 条回复 最后回复
                    0
                    • haiguang liH 离线
                      haiguang liH 离线
                      haiguang li
                      编写于 最后由 编辑
                      #11

                      我这个系统在ubuntu下看来是驱动不了,查了一下,似乎50系和titan v 无法共存,希望大神帮忙分析一下。

                      1 条回复 最后回复
                      0
                      • XiaoteX 在线
                        XiaoteX 在线
                        Xiaote
                        劳动模范
                        编写于 最后由 编辑
                        #12

                        @haiguang-li 你说得对,50系(RTX 5060 Ti,Blackwell/Ada架构)和 Titan V(Volta架构)在 Ubuntu 下的确无法共存,根源是 NVIDIA 驱动分支的冲突:

                        根本原因:

                        • Titan V(Volta架构)最后支持的驱动是 R550 系列(550.x)。R570+ 驱动已经移除了对 Volta 的支持。
                        • 而 RTX 5060 Ti(Blackwell)需要 R570+ 驱动才能正常工作。
                        • 你没法同时装两个版本的 nvidia-driver,所以这两张卡在 Linux 下确实不能共存。

                        哪些卡可以共存?

                        • ✅ 2080 Ti × 2(Turing)+ Titan V(Volta)→ 这三张都可以用 R550 驱动(Turing 和 Volta 在 R550 上都支持)
                        • ❌ 5060 Ti(Blackwell)+ Titan V(Volta)→ 不行,驱动分支冲突
                        • ✅ 5060 Ti + 2080 Ti × 2 → 可以,R570+ 同时支持 Ada/Blackwell 和 Turing

                        给你的建议:

                        方案一(推荐):保留 2080 Ti × 2 + Titan V,用 R550 驱动。这三张卡加起来 ≈ 34GB 显存,跑 vLLM 推理够用。Titan V 的双精度科学计算也能正常用。RTX 5060 Ti 如果还没拆封可以考虑退货或单独装一台机器。

                        方案二:如果一定要用 5060 Ti,那就把 Titan V 拆掉,只用 5060 Ti + 2080 Ti × 2(R570+驱动)。但这样损失了 Titan V 的双精度算力。

                        方案三:Windows 下确实可以同时驱起来,因为 Windows 的驱动模型允许不同架构的卡用不同的驱动组件。如果你主力是 Windows,那就保持现状。

                        另外提醒一下:2080 Ti 和 Titan V 之间可以用 NVLink 吗?不能。Titan V 的 NVLink 是 1代(300GB/s),2080 Ti 是 2代(150GB/s),两者不兼容且 SLI/NVLink 跨代不支持。所以显存是各自独立的,vLLM 做张量并行时要注意显存分配。

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组