Nvidia DGX spark一些心得

terry

非常好的分享，双spark有点牛逼。手上有4台更是震惊，玩大模型没问题了，comfyUI再慢，也扛不住4并发

Tony Wang

很好, 让我对spark有了实际性能的认识.

可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.

kop wang

有点意思，双gb10的prefill几乎翻倍了，nv的串联方案效率这么高

soop ladios

@Tony-Wang
ltx2.3大概是這樣:
（DGX Spark, 1280×720）

steps	seconds	frames	冷啟動耗時
12	4	97	~290 秒
24	4	97	~480 秒

使用這些模型:

models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors
models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors
models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors

Flux.2 1280x720、20 steps：

bf16 20 steps 約 530 秒，fp8mixed 20 steps 約 155 秒。
fp8mixed 4 steps smoke test 約 1 分鐘內完成；20 steps 約 2 到 3 分鐘級別

soop ladios

@kop-wang
connectX-7 頻寬是200Gb/s , 不過我測起來只有100 Gb/s, 不知道是不是它有兩個connectX-7 port, 但是我只插了一個. 不過看起來100 Gb/s + RDMA, vllm的張量運算也跑的還可以.

Tony Wang

@soop-ladios

这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.

terry

@Tony-Wang 速度还算不错，也算不上快，但能接受了，40秒要50分钟，而且这是12步，它这个1280是带放大的，原生分辨率应该在512左右，这个模型我也在用。4090 40秒视频，1280*736 大概是550秒。正好我今天的视频要讲，说实话放大效果挺不错的。

kos or

看到DeepSeek-V4-Flash 我眼睛都亮了起來, 今天DeepSeek-V4-Flash 短短4分鐘解決了Qwen3.6-27B and Qwen3.6-35B-A3B 花了20分鐘一直卡關的問題(錯誤的方法連續一直使用loop), 可惜我的機器裝不下DSV4-Flash , 搭配DSV4-Flash雙spark 性價比增加了許多; 感謝樓主分享喔 : )

iocat

@terry 你目前的主力显卡是pro6000还是4090 48G

terry

@iocat 4090，我没买过Pro6000，有点贵了，而且我买4090的时候，Pro 6000还没推，买完个把星期，京东就大规模推了。不过我晚点应该还会买4090，我大部分需求xtx就能完成，甚至做视频也能完成，买4090 48G是因为想要尝试高分辨率数字人视频，因此48G显存足够用，性价比也高。现在看来完全符合我的需求，但是如果说性价比，还是6000更高，买得起的还是买贵的。

抡锤者

Nvidia DGX spark一些心得