<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Nvidia DGX spark一些心得]]></title><description><![CDATA[<p dir="auto">NVIDIA DGX spark 不是這邊的主力部署, 不過這裡有一些數據分享給想知道或是有類似需求的朋友.<br />
我的LLM的用途主要是工作上(驅動/韌體 開發/debug), 基本上需要模型跑在全精度或至少Q8量化以上. 我試過FP8相較BF16已經略差, Q4實際使用上是無法達到我的需求.<br />
在這個前提下, 我需要的是更多的vram, 能夠跑Q8以上的模型, 並且至少需要256K context, 才能比較舒適的使用. DGX spark雖然不快, 但是如果我想跑minimax, deepseek, mimo之類的模型, 選擇似乎也不多. 如果有超大模型, 超長上下文, 多併發的需求, 同時又不能使用雲端模型的情況下, DGX spark是可以考慮的選擇之一.<br />
現在我手上有4台DGX spark, 因為QSFP switch還沒到手, 所以只能先倆倆對接, 四台還沒辦法接在一起. DGX spark自帶兩個connectX-7 QSFP介面, 把多台接在一起的時候,透過RDMA 和張量並行，集群可實現部分加速, 越多台速度越快,這應該比mac的exo快, 我沒有多台mac, 所以不知道實際狀況如何. 目前我是跑Qwen/Qwen3.6-27B-FP8(模型權重30.9G)跟deepseek-ai/DeepSeek-V4-Flash全精度模型(模型權重160G), 下面速度供大家參考:</p>
<p dir="auto">Qwen/Qwen3.6-27B-FP8單spark:<br />
<img src="https://upload.lcz.me/uploads/bfb4d071-da13-481f-981a-21ddc3b4cbd8.png" alt="qwen3_single_spark.png" class=" img-fluid img-markdown" /><br />
Qwen/Qwen3.6-27B-FP8雙spark:<br />
<img src="https://upload.lcz.me/uploads/b9227916-643a-4b3d-84c9-b97971b56ede.png" alt="qwen3-dual_spark.png" class=" img-fluid img-markdown" /><br />
deepseek-ai/DeepSeek-V4-Flash, 雙spark:<br />
<img src="https://upload.lcz.me/uploads/009035ca-f201-431a-9d03-ab04e10737cd.png" alt="deepseek.png" class=" img-fluid img-markdown" /></p>
<p dir="auto">速度不是非常快, 不過因為平常我也不跟它們聊天, 都是用opencode或pi把工作丟給它們就去做別的事了, 所以也還好. 基本上有個20我就覺得可以用了, 畢竟這是8 bit的模型, 也不能強求什麼了.<br />
這兩個模型依我的使用比較起來, 感覺智力上相當接近, qwen 3.6 27B在tool call上出錯比較少, 是真的能打. 雖然跟claude opus 4.7或GPT 5.5相較之下還是有差異, 不過也堪用了.</p>
<p dir="auto">至於ComfyUI嘛.. 它就是一個沒有什麼跑不動, 卻也沒有什麼跑的快的狀態.</p>
<p dir="auto">6/2更新, deepseek v4 flash spark論壇上有新的優化, 請gemini cli照做後性能有所提升.<br />
論壇網頁:<br />
<a href="https://forums.developer.nvidia.com/t/deepseek-v4-flash-official-fp8-running-across-2x-dgx-spark-tp-2-mtp-200k-ctx-recipe-numbers/370309/135" rel="nofollow ugc">https://forums.developer.nvidia.com/t/deepseek-v4-flash-official-fp8-running-across-2x-dgx-spark-tp-2-mtp-200k-ctx-recipe-numbers/370309/135</a></p>
<p dir="auto">測試:<br />
<img src="https://upload.lcz.me/uploads/b2f39a88-3c70-4f1f-ae61-57722ba5a5b2.png" alt="螢幕擷取畫面 2026-06-02 233155.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/371/nvidia-dgx-spark一些心得</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 20:44:51 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/371.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 31 May 2026 06:25:24 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Mon, 01 Jun 2026 19:45:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/iocat" aria-label="Profile: iocat">@<bdi>iocat</bdi></a> 4090，我没买过Pro6000，有点贵了，而且我买4090的时候，Pro 6000还没推，买完个把星期，京东就大规模推了。不过我晚点应该还会买4090，我大部分需求xtx就能完成，甚至做视频也能完成，买4090 48G是因为想要尝试高分辨率数字人视频，因此48G显存足够用，性价比也高。现在看来完全符合我的需求，但是如果说性价比，还是6000更高，买得起的还是买贵的。</p>
]]></description><link>https://lcz.me/post/4597</link><guid isPermaLink="true">https://lcz.me/post/4597</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Mon, 01 Jun 2026 19:45:18 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Mon, 01 Jun 2026 13:10:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 你目前的主力显卡是pro6000还是4090 48G</p>
]]></description><link>https://lcz.me/post/4546</link><guid isPermaLink="true">https://lcz.me/post/4546</guid><dc:creator><![CDATA[iocat]]></dc:creator><pubDate>Mon, 01 Jun 2026 13:10:10 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Mon, 01 Jun 2026 12:08:49 GMT]]></title><description><![CDATA[<p dir="auto">看到DeepSeek-V4-Flash 我眼睛都亮了起來, 今天DeepSeek-V4-Flash 短短4分鐘解決了Qwen3.6-27B and Qwen3.6-35B-A3B 花了20分鐘一直卡關的問題(錯誤的方法連續一直使用loop), 可惜我的機器裝不下DSV4-Flash , 搭配DSV4-Flash雙spark 性價比增加了許多; 感謝樓主分享喔 : )</p>
]]></description><link>https://lcz.me/post/4536</link><guid isPermaLink="true">https://lcz.me/post/4536</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Mon, 01 Jun 2026 12:08:49 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 20:06:36 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a> 速度还算不错，也算不上快，但能接受了，40秒要50分钟，而且这是12步，它这个1280是带放大的，原生分辨率应该在512左右，这个模型我也在用。4090 40秒视频，1280*736 大概是550秒。正好我今天的视频要讲，说实话放大效果挺不错的。</p>
]]></description><link>https://lcz.me/post/4477</link><guid isPermaLink="true">https://lcz.me/post/4477</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 31 May 2026 20:06:36 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 15:41:15 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/soop-ladios" aria-label="Profile: soop-ladios">@<bdi>soop-ladios</bdi></a></p>
<p dir="auto">这个LTX 2.3 的蒸馏模型这么快吗? 有点儿不可思议.</p>
]]></description><link>https://lcz.me/post/4467</link><guid isPermaLink="true">https://lcz.me/post/4467</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Sun, 31 May 2026 15:41:15 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 15:15:33 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a><br />
connectX-7 頻寬是200Gb/s , 不過我測起來只有100 Gb/s, 不知道是不是它有兩個connectX-7 port, 但是我只插了一個. 不過看起來100 Gb/s + RDMA, vllm的張量運算也跑的還可以.</p>
]]></description><link>https://lcz.me/post/4466</link><guid isPermaLink="true">https://lcz.me/post/4466</guid><dc:creator><![CDATA[soop ladios]]></dc:creator><pubDate>Sun, 31 May 2026 15:15:33 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 15:00:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a><br />
ltx2.3大概是這樣:<br />
（DGX Spark, 1280×720）</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:right">steps</th>
<th style="text-align:right">seconds</th>
<th style="text-align:right">frames</th>
<th style="text-align:right">冷啟動耗時</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:right">12</td>
<td style="text-align:right">4</td>
<td style="text-align:right">97</td>
<td style="text-align:right">~290 秒</td>
</tr>
<tr>
<td style="text-align:right">24</td>
<td style="text-align:right">4</td>
<td style="text-align:right">97</td>
<td style="text-align:right">~480 秒</td>
</tr>
</tbody>
</table>
<p dir="auto">使用這些模型:</p>
<ul>
<li><code>models/checkpoints/ltx-2.3-22b-distilled-1.1.safetensors</code></li>
<li><code>models/text_encoders/gemma_3_12B_it_fp4_mixed.safetensors</code></li>
<li><code>models/latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors</code></li>
</ul>
<p dir="auto">Flux.2  <code>1280x720</code>、<code>20 steps</code>：</p>
<ul>
<li>bf16 20 steps 約 530 秒，fp8mixed 20 steps 約 155 秒。</li>
<li>fp8mixed 4 steps smoke test 約 1 分鐘內完成；20 steps 約 2 到 3 分鐘級別</li>
</ul>
]]></description><link>https://lcz.me/post/4465</link><guid isPermaLink="true">https://lcz.me/post/4465</guid><dc:creator><![CDATA[soop ladios]]></dc:creator><pubDate>Sun, 31 May 2026 15:00:08 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 14:28:28 GMT]]></title><description><![CDATA[<p dir="auto">有点意思，双gb10的prefill几乎翻倍了，nv的串联方案效率这么高</p>
]]></description><link>https://lcz.me/post/4463</link><guid isPermaLink="true">https://lcz.me/post/4463</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Sun, 31 May 2026 14:28:28 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 14:11:36 GMT]]></title><description><![CDATA[<p dir="auto">很好, 让我对spark有了实际性能的认识.</p>
<p dir="auto">可以再分享一下ComfyUI生图的速度, 让大家能有个准确的预期. 因为生图,视频的需求弹性很大, 尤其在没有生产压力的前提下.</p>
]]></description><link>https://lcz.me/post/4461</link><guid isPermaLink="true">https://lcz.me/post/4461</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Sun, 31 May 2026 14:11:36 GMT</pubDate></item><item><title><![CDATA[Reply to Nvidia DGX spark一些心得 on Sun, 31 May 2026 08:43:02 GMT]]></title><description><![CDATA[<p dir="auto">非常好的分享，双spark有点牛逼。手上有4台更是震惊，玩大模型没问题了，comfyUI再慢，也扛不住4并发<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f622.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--cry" style="height:23px;width:auto;vertical-align:middle" title="😢" alt="😢" /></p>
]]></description><link>https://lcz.me/post/4427</link><guid isPermaLink="true">https://lcz.me/post/4427</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 31 May 2026 08:43:02 GMT</pubDate></item></channel></rss>