跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Nvidia DGX spark一些心得

Nvidia DGX spark一些心得

已定时 已固定 已锁定 已移动 LLM讨论区
11 帖子 6 发布者 368 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • soop ladiosS 在线
    soop ladiosS 在线
    soop ladios
    编写于 最后由 soop ladios 编辑
    #1

    NVIDIA DGX spark 不是這邊的主力部署, 不過這裡有一些數據分享給想知道或是有類似需求的朋友.
    我的LLM的用途主要是工作上(驅動/韌體 開發/debug), 基本上需要模型跑在全精度或至少Q8量化以上. 我試過FP8相較BF16已經略差, Q4實際使用上是無法達到我的需求.
    在這個前提下, 我需要的是更多的vram, 能夠跑Q8以上的模型, 並且至少需要256K context, 才能比較舒適的使用. DGX spark雖然不快, 但是如果我想跑minimax, deepseek, mimo之類的模型, 選擇似乎也不多. 如果有超大模型, 超長上下文, 多併發的需求, 同時又不能使用雲端模型的情況下, DGX spark是可以考慮的選擇之一.
    現在我手上有4台DGX spark, 因為QSFP switch還沒到手, 所以只能先倆倆對接, 四台還沒辦法接在一起. DGX spark自帶兩個connectX-7 QSFP介面, 把多台接在一起的時候,透過RDMA 和張量並行,集群可實現部分加速, 越多台速度越快,這應該比mac的exo快, 我沒有多台mac, 所以不知道實際狀況如何. 目前我是跑Qwen/Qwen3.6-27B-FP8(模型權重30.9G)跟deepseek-ai/DeepSeek-V4-Flash全精度模型(模型權重160G), 下面速度供大家參考:

    Qwen/Qwen3.6-27B-FP8單spark:
    qwen3_single_spark.png
    Qwen/Qwen3.6-27B-FP8雙spark:
    qwen3-dual_spark.png
    deepseek-ai/DeepSeek-V4-Flash, 雙spark:
    deepseek.png

    速度不是非常快, 不過因為平常我也不跟它們聊天, 都是用opencode或pi把工作丟給它們就去做別的事了, 所以也還好. 基本上有個20我就覺得可以用了, 畢竟這是8 bit的模型, 也不能強求什麼了.
    這兩個模型依我的使用比較起來, 感覺智力上相當接近, qwen 3.6 27B在tool call上出錯比較少, 是真的能打. 雖然跟claude opus 4.7或GPT 5.5相較之下還是有差異, 不過也堪用了.

    至於ComfyUI嘛.. 它就是一個沒有什麼跑不動, 卻也沒有什麼跑的快的狀態.

    6/2更新, deepseek v4 flash spark論壇上有新的優化, 請gemini cli照做後性能有所提升.
    論壇網頁:
    https://forums.developer.nvidia.com/t/deepseek-v4-flash-official-fp8-running-across-2x-dgx-spark-tp-2-mtp-200k-ctx-recipe-numbers/370309/135

    測試:
    螢幕擷取畫面 2026-06-02 233155.png

    1 条回复 最后回复
    7
    • terryT terry 固定了该主题
    • terryT 离线
      terryT 离线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      非常好的分享,双spark有点牛逼。手上有4台更是震惊,玩大模型没问题了,comfyUI再慢,也扛不住4并发😢

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • Tony WangT 离线
        Tony WangT 离线
        Tony Wang
        超级版主
        编写于 最后由 Tony Wang 编辑
        #3

        很好, 让我对spark有了实际性能的认识.

        可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.

        soop ladiosS 1 条回复 最后回复
        0
        • kop wangK 离线
          kop wangK 离线
          kop wang
          超级版主
          编写于 最后由 编辑
          #4

          有点意思,双gb10的prefill几乎翻倍了,nv的串联方案效率这么高

          虚心交流,一起进步

          soop ladiosS 1 条回复 最后回复
          0
          • Tony WangT Tony Wang

            很好, 让我对spark有了实际性能的认识.

            可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.

            soop ladiosS 在线
            soop ladiosS 在线
            soop ladios
            编写于 最后由 编辑
            #5

            @Tony-Wang
            ltx2.3大概是這樣:
            (DGX Spark, 1280×720)

            steps seconds frames 冷啟動耗時
            12 4 97 ~290 秒
            24 4 97 ~480 秒

            使用這些模型:

            • models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors
            • models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors
            • models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors

            Flux.2 1280x720、20 steps:

            • bf16 20 steps 約 530 秒,fp8mixed 20 steps 約 155 秒。
            • fp8mixed 4 steps smoke test 約 1 分鐘內完成;20 steps 約 2 到 3 分鐘級別
            Tony WangT 1 条回复 最后回复
            1
            • kop wangK kop wang

              有点意思,双gb10的prefill几乎翻倍了,nv的串联方案效率这么高

              soop ladiosS 在线
              soop ladiosS 在线
              soop ladios
              编写于 最后由 编辑
              #6

              @kop-wang
              connectX-7 頻寬是200Gb/s , 不過我測起來只有100 Gb/s, 不知道是不是它有兩個connectX-7 port, 但是我只插了一個. 不過看起來100 Gb/s + RDMA, vllm的張量運算也跑的還可以.

              1 条回复 最后回复
              0
              • soop ladiosS soop ladios

                @Tony-Wang
                ltx2.3大概是這樣:
                (DGX Spark, 1280×720)

                steps seconds frames 冷啟動耗時
                12 4 97 ~290 秒
                24 4 97 ~480 秒

                使用這些模型:

                • models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors
                • models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors
                • models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors

                Flux.2 1280x720、20 steps:

                • bf16 20 steps 約 530 秒,fp8mixed 20 steps 約 155 秒。
                • fp8mixed 4 steps smoke test 約 1 分鐘內完成;20 steps 約 2 到 3 分鐘級別
                Tony WangT 离线
                Tony WangT 离线
                Tony Wang
                超级版主
                编写于 最后由 编辑
                #7

                @soop-ladios

                这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.

                terryT 1 条回复 最后回复
                0
                • Tony WangT Tony Wang

                  @soop-ladios

                  这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.

                  terryT 离线
                  terryT 离线
                  terry
                  超级版主
                  编写于 最后由 terry 编辑
                  #8

                  @Tony-Wang 速度还算不错,也算不上快,但能接受了,40秒要50分钟,而且这是12步,它这个1280是带放大的,原生分辨率应该在512左右,这个模型我也在用。4090 40秒视频,1280*736 大概是550秒。正好我今天的视频要讲,说实话放大效果挺不错的。

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  0
                  • kos orK 离线
                    kos orK 离线
                    kos or
                    劳动模范
                    编写于 最后由 kos or 编辑
                    #9

                    看到DeepSeek-V4-Flash 我眼睛都亮了起來, 今天DeepSeek-V4-Flash 短短4分鐘解決了Qwen3.6-27B and Qwen3.6-35B-A3B 花了20分鐘一直卡關的問題(錯誤的方法連續一直使用loop), 可惜我的機器裝不下DSV4-Flash , 搭配DSV4-Flash雙spark 性價比增加了許多; 感謝樓主分享喔 : )

                    1 条回复 最后回复
                    0
                    • I 离线
                      I 离线
                      iocat
                      编写于 最后由 编辑
                      #10

                      @terry 你目前的主力显卡是pro6000还是4090 48G

                      terryT 1 条回复 最后回复
                      0
                      • I iocat

                        @terry 你目前的主力显卡是pro6000还是4090 48G

                        terryT 离线
                        terryT 离线
                        terry
                        超级版主
                        编写于 最后由 编辑
                        #11

                        @iocat 4090,我没买过Pro6000,有点贵了,而且我买4090的时候,Pro 6000还没推,买完个把星期,京东就大规模推了。不过我晚点应该还会买4090,我大部分需求xtx就能完成,甚至做视频也能完成,买4090 48G是因为想要尝试高分辨率数字人视频,因此48G显存足够用,性价比也高。现在看来完全符合我的需求,但是如果说性价比,还是6000更高,买得起的还是买贵的。

                        油管:https://www.youtube.com/@抡锤者

                        1 条回复 最后回复
                        0
                        • 系统 取消固定了该主题

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组