跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Nvidia DGX spark一些心得

Nvidia DGX spark一些心得

已定时 已固定 已锁定 已移动 LLM讨论区
11 帖子 6 发布者 368 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 离线
    terryT 离线
    terry
    超级版主
    编写于 最后由 编辑
    #2

    非常好的分享,双spark有点牛逼。手上有4台更是震惊,玩大模型没问题了,comfyUI再慢,也扛不住4并发😢

    油管:https://www.youtube.com/@抡锤者

    1 条回复 最后回复
    0
    • Tony WangT 在线
      Tony WangT 在线
      Tony Wang
      超级版主
      编写于 最后由 Tony Wang 编辑
      #3

      很好, 让我对spark有了实际性能的认识.

      可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.

      soop ladiosS 1 条回复 最后回复
      0
      • kop wangK 离线
        kop wangK 离线
        kop wang
        超级版主
        编写于 最后由 编辑
        #4

        有点意思,双gb10的prefill几乎翻倍了,nv的串联方案效率这么高

        虚心交流,一起进步

        soop ladiosS 1 条回复 最后回复
        0
        • Tony WangT Tony Wang

          很好, 让我对spark有了实际性能的认识.

          可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.

          soop ladiosS 离线
          soop ladiosS 离线
          soop ladios
          编写于 最后由 编辑
          #5

          @Tony-Wang
          ltx2.3大概是這樣:
          (DGX Spark, 1280×720)

          steps seconds frames 冷啟動耗時
          12 4 97 ~290 秒
          24 4 97 ~480 秒

          使用這些模型:

          • models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors
          • models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors
          • models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors

          Flux.2 1280x720、20 steps:

          • bf16 20 steps 約 530 秒,fp8mixed 20 steps 約 155 秒。
          • fp8mixed 4 steps smoke test 約 1 分鐘內完成;20 steps 約 2 到 3 分鐘級別
          Tony WangT 1 条回复 最后回复
          1
          • kop wangK kop wang

            有点意思,双gb10的prefill几乎翻倍了,nv的串联方案效率这么高

            soop ladiosS 离线
            soop ladiosS 离线
            soop ladios
            编写于 最后由 编辑
            #6

            @kop-wang
            connectX-7 頻寬是200Gb/s , 不過我測起來只有100 Gb/s, 不知道是不是它有兩個connectX-7 port, 但是我只插了一個. 不過看起來100 Gb/s + RDMA, vllm的張量運算也跑的還可以.

            1 条回复 最后回复
            0
            • soop ladiosS soop ladios

              @Tony-Wang
              ltx2.3大概是這樣:
              (DGX Spark, 1280×720)

              steps seconds frames 冷啟動耗時
              12 4 97 ~290 秒
              24 4 97 ~480 秒

              使用這些模型:

              • models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors
              • models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors
              • models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors

              Flux.2 1280x720、20 steps:

              • bf16 20 steps 約 530 秒,fp8mixed 20 steps 約 155 秒。
              • fp8mixed 4 steps smoke test 約 1 分鐘內完成;20 steps 約 2 到 3 分鐘級別
              Tony WangT 在线
              Tony WangT 在线
              Tony Wang
              超级版主
              编写于 最后由 编辑
              #7

              @soop-ladios

              这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.

              terryT 1 条回复 最后回复
              0
              • Tony WangT Tony Wang

                @soop-ladios

                这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.

                terryT 离线
                terryT 离线
                terry
                超级版主
                编写于 最后由 terry 编辑
                #8

                @Tony-Wang 速度还算不错,也算不上快,但能接受了,40秒要50分钟,而且这是12步,它这个1280是带放大的,原生分辨率应该在512左右,这个模型我也在用。4090 40秒视频,1280*736 大概是550秒。正好我今天的视频要讲,说实话放大效果挺不错的。

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                0
                • kos orK 离线
                  kos orK 离线
                  kos or
                  劳动模范
                  编写于 最后由 kos or 编辑
                  #9

                  看到DeepSeek-V4-Flash 我眼睛都亮了起來, 今天DeepSeek-V4-Flash 短短4分鐘解決了Qwen3.6-27B and Qwen3.6-35B-A3B 花了20分鐘一直卡關的問題(錯誤的方法連續一直使用loop), 可惜我的機器裝不下DSV4-Flash , 搭配DSV4-Flash雙spark 性價比增加了許多; 感謝樓主分享喔 : )

                  1 条回复 最后回复
                  0
                  • I 离线
                    I 离线
                    iocat
                    编写于 最后由 编辑
                    #10

                    @terry 你目前的主力显卡是pro6000还是4090 48G

                    terryT 1 条回复 最后回复
                    0
                    • I iocat

                      @terry 你目前的主力显卡是pro6000还是4090 48G

                      terryT 离线
                      terryT 离线
                      terry
                      超级版主
                      编写于 最后由 编辑
                      #11

                      @iocat 4090,我没买过Pro6000,有点贵了,而且我买4090的时候,Pro 6000还没推,买完个把星期,京东就大规模推了。不过我晚点应该还会买4090,我大部分需求xtx就能完成,甚至做视频也能完成,买4090 48G是因为想要尝试高分辨率数字人视频,因此48G显存足够用,性价比也高。现在看来完全符合我的需求,但是如果说性价比,还是6000更高,买得起的还是买贵的。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0
                      • 系统 取消固定了该主题

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组