跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【经验分享+求助】双卡(3090+3070)混插:Windows vs Ubuntu 跑 Qwen/LTX-Video 性能实测

【经验分享+求助】双卡(3090+3070)混插:Windows vs Ubuntu 跑 Qwen/LTX-Video 性能实测

已定时 已固定 已锁定 已移动 AI硬件
16 帖子 7 发布者 347 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • J 离线
    J 离线
    johnnybegood
    编写于 最后由 johnnybegood 编辑
    #1

    【经验分享+求助】双卡(3090+3070)混插:Windows vs Ubuntu 跑 Qwen/LTX-Video 性能实测
    一、 先报配置:

    • CPU: AMD Ryzen 9 3950X
    • 内存: 64GB DDR4
    • 显卡: RTX 3090 24G + RTX 3070 8G(混插)
    • 电源: 1200W 白金电源(之前是 700W,为了带双卡特意换的,安全第一)
    • 系统环境: Windows 11 / Ubuntu 24.04 双系统
      关于显卡的小插曲: 3090 是之前去中关村实体店 5300 元现场挑的,拷机 1-2 小时没问题。用了几个月,最近跑 LTX-Video 经常一跑就是大半天,稳得很。商家给了 3 年换新店保,感觉还算靠谱。3070 是早年留下来的,总觉得闲置了有点亏,于是就有了这次的双卡混插折腾。
      我的折腾目标很明确:配一台能稳定干活的生产力工具。所以模型都选主流的,上下文基本设置在 64K - 128K 之间,都是Q4模型,MTP draft 3。
      二、 大模型推理实测(Qwen 35B MoE / 27B)
    1. Windows 11 环境(LM Studio / KV Cache 设为 Q8)
    • Qwen 35B (A3B MoE):
      • 普通版:约 105 t/s
      • MTP 版:约 110 t/s
      • 发现一个现象: MTP对这个模型用处不是太明显, 但是随着上下文(Context)增加,MTP 版似乎不太降速;而普通版会明显降速到 80-90 t/s。不知道大家有没有遇到类似的现象?
    • Qwen 27B:
      • 普通版:约 25 t/s
      • MTP 版:约 54 t/s(提升超过 100%,非常满意!)
    • Qwen 122B (A10B MoE)
      • 普通版:约 20 t/s
      • MTP 版:None
    1. Ubuntu 24.04 环境(llama.cpp / 575 驱动 / CUDA 12.8 / 3090单卡)
    • Qwen 35B (A3B MoE):
      • 普通版:约 130 t/s
      • MTP 版:约 133 t/s(在 Linux 下高上下文暂未发现明显降速)
    • Qwen 27B:
      • 普通版(单卡):约 27 t/s
      • MTP 版(单卡):约 60 t/s
      • 双卡测试: 如果把 3070 也开起来走双卡,速度反而会掉到 46-48 t/s(估计是跨卡通信或者 PCIe 带宽拖了后腿)。
    • Qwen 122B (A10B MoE)
      • 普通版:约 26 t/s
      • MTP 版:None

    补充一句, 别的模型也跑了, Gemma从内容和速度看都比较废柴就不打算说了, 还是Qwen好用, 目前正尝试把 deepseek 自己量化到 60多G跑起来, 一直还没成功。

    三、 AI 视频生成实测(ComfyUI / LTX-Video)
    目前只在 Windows 11 下进行了测试:

    • 模型及配置: LTX-Video 2.3 (fp8.safetensors) + 8步加速 LoRA
    • 渲染速度: 生成一段 10秒 的视频,大约需要 6分钟。
      跑了很多段,基本都卡在 6 分钟左右。后续换成 Sulphur速度也差不多。
      四、 想请教论坛各位大佬两个问题:
    1. AI 视频这个速度正常吗? 3090 跑 LTX-Video 2.3 fp8 8步,10秒视频 6分钟这个效率在正常范围内吗?
    2. Ubuntu 下的加速建议: 视频这块我还没在 Ubuntu 下跑。针对我这种 3090+3070 的奇葩混插配置,或者针对 Linux 环境,大佬们有什么进一步压榨性能的加速建议吗?(特别是解决双卡跑 LLM 速度反降的问题)
    1 条回复 最后回复
    2
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      速度偏慢,Ilm和视频都偏慢。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #3

        @johnnybegood 很详细的测试帖!针对你提的两个问题分享一些经验:

        1️⃣ LTX-Video 速度:6分钟算正常范围内

        3090 单卡跑 LTX-Video 2.3 fp8 + 8步加速 LoRA,10秒视频 6分钟左右确实是正常水平。LTX 2.3 的 fp8 模型在 3090 上就是这个档位。如果想提速有几个方向:

        • 降低输出分辨率(比如 512x288 代替 640x360)能让速度明显提升
        • 尝试 Teacache 等缓存优化节点(ComfyUI 社区有相关自定义节点)
        • Sulphur 速度差不多的话,可以试试看 HunyuanVideo(在 3090 上 fp8 版表现不错)

        2️⃣ Ubuntu + 双卡压榨建议

        你遇到的双卡 LLM 掉速(46→48 t/s)是因为 3070 只有 8G + PCIe 带宽瓶颈。对于你的混插配置,建议:

        • LLM 场景:只用 3090 单卡跑推理,3070 专门负责 ComfyUI 视频渲染。在 Ubuntu 下可以用 CUDA_VISIBLE_DEVICES=0 和 =1 分别隔离两卡的任务,避免 LLM 推理时跨卡通信拖速度
        • ComfyUI 场景:在 Ubuntu 下 ComfyUI 跑 LTX-Video 效率通常比 Windows 高一些。可以试试 python main.py --gpu-only 确保所有节点都在 GPU 上跑
        • 双卡混插的通用原则:尽量避免让两张不同型号的卡做同一件计算密集型任务(带宽和显存不对称导致木桶效应),更适合各司其职

        希望这些对你有帮助!

        1 条回复 最后回复
        -1
        • sirwangS 离线
          sirwangS 离线
          sirwang
          编写于 最后由 编辑
          #4

          数据详细! 帅~~~ 另外问一句: 3090是近期买的吗? 你还敢去中关村?~~ 我是胆小的,但还想淘换个4080S或者4090之类的,他们那边大概啥价格?方便问一句?

          J 1 条回复 最后回复
          0
          • sirwangS sirwang

            数据详细! 帅~~~ 另外问一句: 3090是近期买的吗? 你还敢去中关村?~~ 我是胆小的,但还想淘换个4080S或者4090之类的,他们那边大概啥价格?方便问一句?

            J 离线
            J 离线
            johnnybegood
            编写于 最后由 编辑
            #5

            @sirwang 我几乎从小就在中关村边上长大的, 上学一路也是在那周边,在那淘过光盘,买过9600bps的modem,看它起高楼,看他繁荣过,年轻时也在那创过业。只是出国读个博士回来后,它居然就瞬间没mei(落)了le。但是毕竟瘦死的骆驼比马大,还是有不少商家活着的。3090大概是春节过后那会买的吧,那时候市场价好像普遍5600-6600,5300基本是批发价。同时还看到一块9600元的二手 4080S 32G,拷机1小时没问题的, 稍微有点后悔没有拿下,现在好像已经12000-13000了吧。 但是想想也不需要, 3090对我来说暂时够用,我在等我一个哥们 6000pro淘汰,到时候可以友情价半卖半送给我,因为他很快要搞一套8卡的910C柜子玩,我就准备捡他剩下的了。4090 48G 的话24500-28500之间,一分钱一分货,主要区分在成色、底板、和内存颗粒吧,没什么好说的,也见到一个21000-22000的, 应该是战损版, 跟老张熟的话可以搞。

            个人觉得 4080s 32g 不那么靠谱, 不像 4090 48G 用的是原来的板子只是换了显存颗粒, 稳定性应该还好, 4080s 应该是整个板都换了, 有的是nvidia原装拆机板,有的是小厂出品, 那就真不清楚具体情况了,坑比较多。

            所以我个人判断, 玩玩、学习、轻度生产, 3090过渡一下就得了; 赚钱、生产,咬咬牙4090 48g; 真吃AI这碗饭的,卖肾直接 6000pro没问题。 当然了,钱足够多的直接8卡机柜,华为工程师直接上门服务的。。。

            个人一点点愚见,见笑了。

            terryT sirwangS 2 条回复 最后回复
            2
            • J johnnybegood

              @sirwang 我几乎从小就在中关村边上长大的, 上学一路也是在那周边,在那淘过光盘,买过9600bps的modem,看它起高楼,看他繁荣过,年轻时也在那创过业。只是出国读个博士回来后,它居然就瞬间没mei(落)了le。但是毕竟瘦死的骆驼比马大,还是有不少商家活着的。3090大概是春节过后那会买的吧,那时候市场价好像普遍5600-6600,5300基本是批发价。同时还看到一块9600元的二手 4080S 32G,拷机1小时没问题的, 稍微有点后悔没有拿下,现在好像已经12000-13000了吧。 但是想想也不需要, 3090对我来说暂时够用,我在等我一个哥们 6000pro淘汰,到时候可以友情价半卖半送给我,因为他很快要搞一套8卡的910C柜子玩,我就准备捡他剩下的了。4090 48G 的话24500-28500之间,一分钱一分货,主要区分在成色、底板、和内存颗粒吧,没什么好说的,也见到一个21000-22000的, 应该是战损版, 跟老张熟的话可以搞。

              个人觉得 4080s 32g 不那么靠谱, 不像 4090 48G 用的是原来的板子只是换了显存颗粒, 稳定性应该还好, 4080s 应该是整个板都换了, 有的是nvidia原装拆机板,有的是小厂出品, 那就真不清楚具体情况了,坑比较多。

              所以我个人判断, 玩玩、学习、轻度生产, 3090过渡一下就得了; 赚钱、生产,咬咬牙4090 48g; 真吃AI这碗饭的,卖肾直接 6000pro没问题。 当然了,钱足够多的直接8卡机柜,华为工程师直接上门服务的。。。

              个人一点点愚见,见笑了。

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #6

              @johnnybegood 1,4080S 32G绝对能满足你的所有需求,做720P视频都够了。2,3090能满足除了720P视频之外的所有需求,720P视频也能做,只是脚本多下功夫,麻烦点而已。3,4090 48G没必要考虑,等你朋友的6000淘汰。除非有数字人频道要上线,像我这样,或者要SG-Lang多开Qwen3.6跑Hermes,否则没有任何必要卖4090 48G,5090 Pro 6000等就更没必要了。

              我建议如果你要一定要双卡都跑,看群里的帖子,用3070跑Qwen3.6 35b A3b,做Hermes大脑,速度还不错,体验不如27b,但也能用。3090用来生产LTX视频,用960*544效果也不错,脚本方面你多花功夫,因为它的时长也不能够,控制在15秒左右,其实也够了,否则会内存交换。

              油管:https://www.youtube.com/@抡锤者

              J 1 条回复 最后回复
              0
              • J johnnybegood

                @sirwang 我几乎从小就在中关村边上长大的, 上学一路也是在那周边,在那淘过光盘,买过9600bps的modem,看它起高楼,看他繁荣过,年轻时也在那创过业。只是出国读个博士回来后,它居然就瞬间没mei(落)了le。但是毕竟瘦死的骆驼比马大,还是有不少商家活着的。3090大概是春节过后那会买的吧,那时候市场价好像普遍5600-6600,5300基本是批发价。同时还看到一块9600元的二手 4080S 32G,拷机1小时没问题的, 稍微有点后悔没有拿下,现在好像已经12000-13000了吧。 但是想想也不需要, 3090对我来说暂时够用,我在等我一个哥们 6000pro淘汰,到时候可以友情价半卖半送给我,因为他很快要搞一套8卡的910C柜子玩,我就准备捡他剩下的了。4090 48G 的话24500-28500之间,一分钱一分货,主要区分在成色、底板、和内存颗粒吧,没什么好说的,也见到一个21000-22000的, 应该是战损版, 跟老张熟的话可以搞。

                个人觉得 4080s 32g 不那么靠谱, 不像 4090 48G 用的是原来的板子只是换了显存颗粒, 稳定性应该还好, 4080s 应该是整个板都换了, 有的是nvidia原装拆机板,有的是小厂出品, 那就真不清楚具体情况了,坑比较多。

                所以我个人判断, 玩玩、学习、轻度生产, 3090过渡一下就得了; 赚钱、生产,咬咬牙4090 48g; 真吃AI这碗饭的,卖肾直接 6000pro没问题。 当然了,钱足够多的直接8卡机柜,华为工程师直接上门服务的。。。

                个人一点点愚见,见笑了。

                sirwangS 离线
                sirwangS 离线
                sirwang
                编写于 最后由 编辑
                #7

                @johnnybegood 👍👍👍也是个踏实人。
                但这里边可能有一点,我不知道是我记错了,还是我理解错了,应该是4090是搬板的,4080S只是换了内存颗粒,所以4080S的PCB板应该是最好的。
                我记得4090应该是换了pcb,所以在不少板子的供电相数上会有不一样的地方,这也是显卡能不能长期扛糟一个很大的体现的地方。

                1 条回复 最后回复
                0
                • terryT terry

                  @johnnybegood 1,4080S 32G绝对能满足你的所有需求,做720P视频都够了。2,3090能满足除了720P视频之外的所有需求,720P视频也能做,只是脚本多下功夫,麻烦点而已。3,4090 48G没必要考虑,等你朋友的6000淘汰。除非有数字人频道要上线,像我这样,或者要SG-Lang多开Qwen3.6跑Hermes,否则没有任何必要卖4090 48G,5090 Pro 6000等就更没必要了。

                  我建议如果你要一定要双卡都跑,看群里的帖子,用3070跑Qwen3.6 35b A3b,做Hermes大脑,速度还不错,体验不如27b,但也能用。3090用来生产LTX视频,用960*544效果也不错,脚本方面你多花功夫,因为它的时长也不能够,控制在15秒左右,其实也够了,否则会内存交换。

                  J 离线
                  J 离线
                  johnnybegood
                  编写于 最后由 johnnybegood 编辑
                  #8

                  @terry 刚才看了一篇文章, 说是 ltx 在生成视频的时候, 图片尺寸一定要是32的倍数,才会快一些。 我果断去看了一眼, 我的长宽设置好像确实不是32的倍数而是一个奇怪的数, 按照你说的 960x544 改过之后, 现在 12秒的视频只要 3分半了, 有点神奇。

                  terryT 1 条回复 最后回复
                  1
                  • J johnnybegood

                    @terry 刚才看了一篇文章, 说是 ltx 在生成视频的时候, 图片尺寸一定要是32的倍数,才会快一些。 我果断去看了一眼, 我的长宽设置好像确实不是32的倍数而是一个奇怪的数, 按照你说的 960x544 改过之后, 现在 12秒的视频只要 3分半了, 有点神奇。

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #9

                    @johnnybegood 神奇吧,多在论坛看看其他人的工作流和参数,很多时候就是这点小改变,你就起飞了。跑起来可以总结下设置,发布更好的入门帖子,给新人抄作业。越入门的越好,越是刚刚踩过坑的人写越有意义。

                    油管:https://www.youtube.com/@抡锤者

                    1 条回复 最后回复
                    1
                    • J 离线
                      J 离线
                      johnnybegood
                      编写于 最后由 编辑
                      #10

                      我发现双卡至少有一个好处, 我把显示器插在 3070 上, 系统默认 3070是显示卡, 这样的话, 平时其他乱七八糟也会有 2G左右的显存用在 3070上, 那就等于给3090 省出来了2G显存, 别小看这2G, 上下文能多不少呢! 而且平时 3090更凉快~~

                      5 V 2 条回复 最后回复
                      0
                      • J johnnybegood

                        我发现双卡至少有一个好处, 我把显示器插在 3070 上, 系统默认 3070是显示卡, 这样的话, 平时其他乱七八糟也会有 2G左右的显存用在 3070上, 那就等于给3090 省出来了2G显存, 别小看这2G, 上下文能多不少呢! 而且平时 3090更凉快~~

                        5 离线
                        5 离线
                        5ccccc
                        编写于 最后由 编辑
                        #11

                        @johnnybegood win系统吗?要占用2G?

                        J 1 条回复 最后回复
                        0
                        • 5 5ccccc

                          @johnnybegood win系统吗?要占用2G?

                          J 离线
                          J 离线
                          johnnybegood
                          编写于 最后由 编辑
                          #12

                          @5ccccc 对, Windows11, 我一般还会开一些乱七八糟的东西, 会占用大概接近2G显存和15G的内存, 如果全退了确实占不了那么多, 但是我懒啊。

                          1 条回复 最后回复
                          0
                          • T 离线
                            T 离线
                            tutu
                            编写于 最后由 编辑
                            #13

                            感觉3080 12g性价比会比3070好一些,建议换这个

                            1 条回复 最后回复
                            0
                            • J johnnybegood 被引用 于这个主题
                            • J johnnybegood

                              我发现双卡至少有一个好处, 我把显示器插在 3070 上, 系统默认 3070是显示卡, 这样的话, 平时其他乱七八糟也会有 2G左右的显存用在 3070上, 那就等于给3090 省出来了2G显存, 别小看这2G, 上下文能多不少呢! 而且平时 3090更凉快~~

                              V 离线
                              V 离线
                              vosrock
                              编写于 最后由 编辑
                              #14

                              @johnnybegood 你别说,2G显存很关键的,这么说的话,我得启用我的CPU显卡了,卧槽,如果多了2G显存的话,我不敢想我的显卡有多强啊,哈哈

                              J 1 条回复 最后回复
                              0
                              • V vosrock

                                @johnnybegood 你别说,2G显存很关键的,这么说的话,我得启用我的CPU显卡了,卧槽,如果多了2G显存的话,我不敢想我的显卡有多强啊,哈哈

                                J 离线
                                J 离线
                                johnnybegood
                                编写于 最后由 编辑
                                #15

                                @vosrock 你是说核显么。。。那个就算了, 我开3070的显卡是因为它显存带宽比3090差的不是那么明显,。。。但是核显就不好说了

                                1 条回复 最后回复
                                0
                                • V 离线
                                  V 离线
                                  vosrock
                                  编写于 最后由 编辑
                                  #16

                                  我不是说用核显来进行AI,而是让他处理桌面,UI这些,刚才实测了,确实可以节省至少600M显存,没有想象的多,不过也挺好的

                                  1 条回复 最后回复
                                  0

                                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                  有了你的建议,这篇帖子会更精彩哦 💗

                                  注册 登录
                                  回复
                                  • 在新帖中回复
                                  登录后回复
                                  • 从旧到新
                                  • 从新到旧
                                  • 最多赞同


                                  • 登录

                                  • 没有帐号? 注册

                                  • 登录或注册以进行搜索。
                                  • 第一个帖子
                                    最后一个帖子
                                  0
                                  • 版块
                                  • 最新
                                  • 标签
                                  • 热门
                                  • 用户
                                  • 群组