<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[廉頗老矣，尚能飯否？ 測試tesla V100 32Gx2 部署Qwen 3.6 27B Q8模型]]></title><description><![CDATA[<p dir="auto">前幾天看著平常編程在用的洋垃圾, 突然想搞個顯卡來跑跑qwen 3.6 27B. 看了半天, 台灣這邊魔改卡不好買, 也都是天價. 7900XTX基本沒人在賣, R9700兩張又太貴, 就入了兩張Nvidia TESLA v100 32G來試試.<br />
電腦本來只有BMC顯示, 所以驅動啥的都沒裝, 只有裝ubuntu 26.04.<br />
各論壇看了看, 鎖定llama.cpp + Qwen3.6-27B-UD-Q8_K_XL.gguf , 然後把相關資料交給gemini cli去安裝, 大概一個小時它就把NVIDIA 驅動,CUDA其他相依軟件及設定搞好, llama.cpp編譯完成, 該避的坑避掉, 模型下載完然後就跑起來了,  全程無干預.<br />
再來就是跟它花了大概兩個小時測試調整, 主要是一開始的prefill慘不忍睹, 花很多時間在長文本測試優化. 調到一個滿意的設定, 就差不多了, 整個過程還挺順利的.<br />
底下是我電腦的基本資訊:</p>
<h2>系統與硬體狀態</h2>
<ul>
<li><strong>作業系統</strong>: Ubuntu 26.04 LTS</li>
<li><strong>CPU</strong>: AMD EPYC 7K62</li>
<li><strong>RAM</strong>: 128GB DDR4</li>
<li><strong>GPU 硬體</strong>: 2x NVIDIA Tesla V100-SXM2-32GB</li>
<li><strong>PCIe 連線</strong>: Gen3 x16 (狀態良好)</li>
<li><strong>平均溫度</strong>: Idle 35°C / 滿載 ~45°C</li>
<li><strong>功耗限制</strong>: 300W</li>
</ul>
<p dir="auto">目前的狀態大概是這樣:</p>
<h2>服務運行狀態</h2>
<ul>
<li><strong>服務名稱</strong>: <code>qwen36-llama.service</code></li>
<li><strong>執行引擎</strong>: <code>llama.cpp</code> (CUDA 70架構優化編譯版)</li>
<li><strong>載入模型</strong>: <code>Qwen3.6-27B-UD-Q8_K_XL.gguf</code></li>
</ul>
<h2>當前模型參數配置 (終極優化版)</h2>
<ul>
<li><strong>總 Context 空間</strong>: <code>524,288</code> tokens</li>
<li><strong>併發能力 (Parallel)</strong>: <code>2</code> 路 (每路 <code>262,144</code> tokens)</li>
<li><strong>KV Cache 精度</strong>: <code>q8_0</code></li>
<li><strong>MTP 加速</strong>: 啟用 (<code>draft-mtp</code>, 最大預測數: <code>2</code>)</li>
<li><strong>Batching 設定</strong>: Batch 1024, UBatch 256</li>
</ul>
<h2>效能與資源佔用指標</h2>
<h3>VRAM 記憶體佔用</h3>
<p dir="auto">系統已確保 100% 的權重與 KV Cache 駐留於 VRAM 中，完全不依賴系統 RAM 進行 offload，徹底解除 PCIe 頻寬瓶頸。</p>
<ul>
<li><strong>GPU 0 佔用</strong>: ~24.3 GB</li>
<li><strong>GPU 1 佔用</strong>: ~30.3 GB</li>
<li><strong>總計佔用</strong>: <strong>54.6 GB</strong></li>
<li><strong>安全餘裕</strong>: 剩餘約 9.4 GB，足以應付 Batch 1024 運算時產生的動態 Scratch Buffer 需求。</li>
</ul>
<h3>推理速度 (實測)</h3>
<ul>
<li><strong>Prompt Processing (Prefill)</strong>: 最高可達 <strong>~611 tokens/second</strong> (長文測試)。</li>
<li><strong>Generation (Decode)</strong>: 穩定於 <strong>~40 tokens/second</strong>。</li>
<li><strong>MTP 接受率</strong>: 約 79% ~ 100% (極高效率)。</li>
</ul>
<p dir="auto">以上是Gemini寫的報告, 中間有多次參數設定調整, 比較如下:</p>
<h2>效能測試結果總表</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">測試組合</th>
<th style="text-align:left">3路 256K (無MTP)</th>
<th style="text-align:left">2路 256K (MTP 2)</th>
<th style="text-align:left">1路 256K (B256, mtp2)</th>
<th style="text-align:left">1路 256K (B512,mtp2)</th>
<th style="text-align:left">1路 256K (B1024,mtp2)</th>
<th style="text-align:left">2路 256K (B1024,mtp2)</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>1. 成功啟動</strong></td>
<td style="text-align:left">是</td>
<td style="text-align:left">是</td>
<td style="text-align:left">是</td>
<td style="text-align:left">是</td>
<td style="text-align:left">是</td>
<td style="text-align:left"><strong>是</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>2. VRAM Used (GPU0/1)</strong></td>
<td style="text-align:left">27.8/31.2 GB</td>
<td style="text-align:left">23.7/29.1 GB</td>
<td style="text-align:left">19.3/23.8 GB</td>
<td style="text-align:left">19.6/24.5 GB</td>
<td style="text-align:left">19.9/25.1 GB</td>
<td style="text-align:left"><strong>24.3/30.3 GB</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>3. Prefill (t/s)</strong></td>
<td style="text-align:left">90.31</td>
<td style="text-align:left">42.02 (短文)</td>
<td style="text-align:left">263.93</td>
<td style="text-align:left">395.94</td>
<td style="text-align:left"><strong>611.04</strong></td>
<td style="text-align:left">23.01 (短文)</td>
</tr>
<tr>
<td style="text-align:left"><strong>4. Generation (t/s)</strong></td>
<td style="text-align:left">20.87</td>
<td style="text-align:left">37.24</td>
<td style="text-align:left"><strong>46.64</strong></td>
<td style="text-align:left">43.09</td>
<td style="text-align:left">40.65</td>
<td style="text-align:left"><strong>40.06</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>5. MTP 接受率</strong></td>
<td style="text-align:left">N/A</td>
<td style="text-align:left">79%</td>
<td style="text-align:left">100%</td>
<td style="text-align:left">100%</td>
<td style="text-align:left">100%</td>
<td style="text-align:left"><strong>87.5%</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>6. 是否 OOM</strong></td>
<td style="text-align:left">否</td>
<td style="text-align:left">否</td>
<td style="text-align:left">否</td>
<td style="text-align:left">否</td>
<td style="text-align:left">否</td>
<td style="text-align:left"><strong>否</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>7. 數據位置</strong></td>
<td style="text-align:left">部分 RAM</td>
<td style="text-align:left">部分 RAM</td>
<td style="text-align:left">純 VRAM</td>
<td style="text-align:left">純 VRAM</td>
<td style="text-align:left">純 VRAM</td>
<td style="text-align:left"><strong>純 VRAM</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>8. GPU Power (0/1)</strong></td>
<td style="text-align:left">51W/49W</td>
<td style="text-align:left">51W/49W</td>
<td style="text-align:left">~50W/50W</td>
<td style="text-align:left">52W/52W</td>
<td style="text-align:left">53W/53W</td>
<td style="text-align:left"><strong>51W/49W</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>9. GPU Temp (0/1)</strong></td>
<td style="text-align:left">35°C/35°C</td>
<td style="text-align:left">34°C/33°C</td>
<td style="text-align:left">35°C/35°C</td>
<td style="text-align:left">39°C/40°C</td>
<td style="text-align:left">39°C/41°C</td>
<td style="text-align:left"><strong>34°C/34°C</strong></td>
</tr>
</tbody>
</table>
<p dir="auto">定案之後看了一下vram占用狀態跟跑一下benchmark:<br />
<img src="https://upload.lcz.me/uploads/acb3206d-7373-45ef-bbf3-eaad2c8c5ff7.png" alt="v100_smi_2c_batch1024_ubatch_256_m2.png" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/267d2597-583f-43ce-ad66-658408397e56.png" alt="v100_bench_2c_batch1024_ubatch_256_m2.png" class=" img-fluid img-markdown" /></p>
<p dir="auto">心得:</p>
<ol>
<li>一樣是qwen3.6 27B Q8模型, 實際使用速度約比雙spark高出5~10 token/s, prefill速度也還行. 不過雙spark可以容納約15路並行, 這台電腦礙於vram容量, 只能兩路.</li>
<li>渦輪風扇實在太吵, 必須關到小房間... 早知道不要嫌麻煩買個水冷...</li>
</ol>
]]></description><link>https://lcz.me/topic/390/廉頗老矣-尚能飯否-測試tesla-v100-32gx2-部署qwen-3.6-27b-q8模型</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 20:58:53 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/390.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 02 Jun 2026 09:55:31 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 廉頗老矣，尚能飯否？ 測試tesla V100 32Gx2 部署Qwen 3.6 27B Q8模型 on Wed, 03 Jun 2026 02:04:00 GMT]]></title><description><![CDATA[<p dir="auto">大佬你行动力也太强了，刚看完你spark的贴子</p>
]]></description><link>https://lcz.me/post/4725</link><guid isPermaLink="true">https://lcz.me/post/4725</guid><dc:creator><![CDATA[iocat]]></dc:creator><pubDate>Wed, 03 Jun 2026 02:04:00 GMT</pubDate></item><item><title><![CDATA[Reply to 廉頗老矣，尚能飯否？ 測試tesla V100 32Gx2 部署Qwen 3.6 27B Q8模型 on Tue, 02 Jun 2026 13:50:11 GMT]]></title><description><![CDATA[<p dir="auto">V100的16G版便宜，32G可不便宜，32G的性价比就不如双卡3080-20G，要输顺序加载1张32G和1张16G的能跑起来Q4KM的就更有价值.</p>
]]></description><link>https://lcz.me/post/4678</link><guid isPermaLink="true">https://lcz.me/post/4678</guid><dc:creator><![CDATA[comeN]]></dc:creator><pubDate>Tue, 02 Jun 2026 13:50:11 GMT</pubDate></item><item><title><![CDATA[Reply to 廉頗老矣，尚能飯否？ 測試tesla V100 32Gx2 部署Qwen 3.6 27B Q8模型 on Tue, 02 Jun 2026 12:55:01 GMT]]></title><description><![CDATA[<p dir="auto">大神们来评判下速度如何，效率如何。有V100可以多测下Comfy。</p>
]]></description><link>https://lcz.me/post/4662</link><guid isPermaLink="true">https://lcz.me/post/4662</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 02 Jun 2026 12:55:01 GMT</pubDate></item></channel></rss>