<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM]]></title><description><![CDATA[<p dir="auto"><a href="https://lcz.me/topic/441/%E8%AB%96-%E8%BF%B7%E4%BD%A0%E9%9B%BB%E8%85%A6-%E9%85%8D%E5%90%88-rtx-pro-4500-%E7%9A%84%E7%B0%A1%E5%96%AE%E6%B8%AC%E8%A9%A6-%E4%BB%A5%E5%8F%8Ablackwell%E6%9E%B6%E6%A7%8B%E4%B8%8B%E7%9A%84%E4%B8%80%E4%BA%9B%E5%98%97%E8%A9%A6-%E5%83%85%E9%99%90dense%E6%A8%A1%E5%9E%8B">上篇在這裏</a></p>
<p dir="auto">然而上篇單純是使用vLLM, 今天就來嘗試一下llama.cpp這個引擎, 之後有機會的話也想碰一下SGLang</p>
<p dir="auto">以下正文, <a href="https://lcz.me/topic/551/%E6%B7%BA%E8%AB%87%E6%A8%A1%E5%9E%8B%E6%AC%8A%E9%87%8D%E4%BB%A5%E5%8F%8Akv-cache%E7%9A%84%E9%87%8F%E5%8C%96-gguf-k-quant-i-quant-awq-gptq-autoround-smoothquant-turboquant-kivi#gsc.tab=0">關於K Quant以及Autoround可以參考這篇文章</a></p>
<p dir="auto">這篇也會提到關於MoQ的技術, 由於篇幅有點長, 所以會分段發</p>
<hr />
<p dir="auto">啓動咒語 (MoQ 4.95作爲例子)</p>
<pre><code>docker run -d --restart unless-stopped --gpus all --name llama-cpp-server -p 8081:8080 -v "$PWD/models:/models:ro" ghcr.io/ggml-org/llama.cpp:full-cuda13 /app/llama-server --model /models/Jianqiao1/Qwen3.6-27B-MTP-MoQ-GGUF/Qwen3.6-27B-MTP-MoQ-4.95.gguf --host 0.0.0.0 --port 8080 --ctx-size 200000 --n-gpu-layers 999 --parallel 1 --ubatch-size 512 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --threads 8 --spec-type draft-mtp --spec-draft-n-max 3 --jinja --spec-default
</code></pre>
<ul>
<li>llama.cpp相比vLLM在KV Cache上面比較靈活, 可以分開設定data type</li>
<li>啓動flash attention, llama.cpp在flash attention上的開發進度比vLLM好, <s>不過llama.cpp好像也不支持flashinfer</s></li>
<li>其他就基本設定</li>
</ul>
<hr />
<p dir="auto">llama.cpp基本測試</p>
<p dir="auto">顯存變動 =&gt; 測試完立即記錄<br />
顯存變動2 =&gt; 測試完等5分鐘記錄, 測試是否有顯存回收 <s>不過好像沒有回收到就是了</s></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Model</th>
<th style="text-align:right">測試階段</th>
<th style="text-align:right">設定上下文長度</th>
<th style="text-align:right">測試上下文深度</th>
<th style="text-align:right">顯存變動</th>
<th style="text-align:right">顯存變動2</th>
<th style="text-align:right">API pp tok/s</th>
<th style="text-align:right">API tg tok/s</th>
<th style="text-align:right">TTFR</th>
</tr>
</thead>
<tbody>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">zero-like</td>
<td style="text-align:right">512</td>
<td style="text-align:right">0</td>
<td style="text-align:right"><code>16185, 32623</code></td>
<td style="text-align:right"><code>16185, 32623</code></td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">half</td>
<td style="text-align:right">100000</td>
<td style="text-align:right">98304</td>
<td style="text-align:right"><code>20369, 32623</code></td>
<td style="text-align:right"><code>20391, 32623</code></td>
<td style="text-align:right">982.37</td>
<td style="text-align:right">52.56</td>
<td style="text-align:right">101.23s</td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">full</td>
<td style="text-align:right">200000</td>
<td style="text-align:right">196608</td>
<td style="text-align:right"><code>24669, 32623</code></td>
<td style="text-align:right"><code>24691, 32623</code></td>
<td style="text-align:right">632.23</td>
<td style="text-align:right">40.22</td>
<td style="text-align:right">312.73s</td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">zero-like</td>
<td style="text-align:right">512</td>
<td style="text-align:right">0</td>
<td style="text-align:right"><code>19259, 32623</code></td>
<td style="text-align:right"><code>19259, 32623</code></td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">100000</td>
<td style="text-align:right">98304</td>
<td style="text-align:right"><code>23443, 32623</code></td>
<td style="text-align:right"><code>23563, 32623</code></td>
<td style="text-align:right">921.55</td>
<td style="text-align:right">50.48</td>
<td style="text-align:right">107.96s</td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">200000</td>
<td style="text-align:right">196608</td>
<td style="text-align:right"><code>27743, 32623</code></td>
<td style="text-align:right"><code>27863, 32623</code></td>
<td style="text-align:right">610.53</td>
<td style="text-align:right">33.82</td>
<td style="text-align:right">323.88s</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">zero-like</td>
<td style="text-align:right">512</td>
<td style="text-align:right">0</td>
<td style="text-align:right"><code>18975, 32623</code></td>
<td style="text-align:right"><code>18975, 32623</code></td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
<td style="text-align:right">n/a</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">100000</td>
<td style="text-align:right">98304</td>
<td style="text-align:right"><code>23159, 32623</code></td>
<td style="text-align:right"><code>23181, 32623</code></td>
<td style="text-align:right">922.93</td>
<td style="text-align:right">44.01</td>
<td style="text-align:right">107.76s</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">200000</td>
<td style="text-align:right">196608</td>
<td style="text-align:right"><code>27459, 32623</code></td>
<td style="text-align:right"><code>27481, 32623</code></td>
<td style="text-align:right">611.04</td>
<td style="text-align:right">38.01</td>
<td style="text-align:right">323.57s</td>
</tr>
</tbody>
</table>
<p dir="auto">測試完的Nvidia-smi作爲證明<br />
<img src="https://upload.lcz.me/uploads/7777dda3-fdcc-4ad3-82a4-567a2a05ee01.jpeg" alt="a1439400-6e17-4f97-bad5-512672f5c9a1-image.jpeg" class=" img-fluid img-markdown" /> :</p>
]]></description><link>https://lcz.me/topic/647/淺談-llama.cpp-配合-rtx-pro-4500-簡單測試-qwen-3.6-27b-moq-autoround以及普通ud-q5km</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 08:03:37 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/647.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 21 Jun 2026 14:16:25 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 23:12:29 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a></p>
<p dir="auto">這個就是用比較接近現實的問題來測試, 不過不排除Qwen或者MoQ在訓練的加入這些原資料就是了</p>
<p dir="auto">stxp大你那篇就是實戰, 用那個會比單純看這個好點</p>
]]></description><link>https://lcz.me/post/7757</link><guid isPermaLink="true">https://lcz.me/post/7757</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 23:12:29 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 23:09:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/imbiplaza-asus" aria-label="Profile: imbiplaza-ASUS">@<bdi>imbiplaza-ASUS</bdi></a></p>
<p dir="auto">Blackwell架構開始成熟, 推理引擎開始更多優化, 估計之後2到3年也會這樣吧</p>
]]></description><link>https://lcz.me/post/7756</link><guid isPermaLink="true">https://lcz.me/post/7756</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 23:09:42 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 19:25:09 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/e8714851-a21d-4de8-a734-d319921c7a97.jpeg" alt="c2f23ff6-a2d2-47d8-b780-e6a93a51a087-image.jpeg" class=" img-fluid img-markdown" /> 只有这个分辨率,lmstudio我没找到，我的显卡也只能跑 4.5的moq. 晚点我详细试试</p>
]]></description><link>https://lcz.me/post/7741</link><guid isPermaLink="true">https://lcz.me/post/7741</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 21 Jun 2026 19:25:09 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 16:18:12 GMT]]></title><description><![CDATA[<p dir="auto">我看到越来越多无审查的NVFP4。。。。陆陆续续下载了，单单看 t/s 的增长, 很爽</p>
]]></description><link>https://lcz.me/post/7722</link><guid isPermaLink="true">https://lcz.me/post/7722</guid><dc:creator><![CDATA[imbiplaza ASUS]]></dc:creator><pubDate>Sun, 21 Jun 2026 16:18:12 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 15:24:12 GMT]]></title><description><![CDATA[<p dir="auto">這篇大約就講到這裏</p>
<p dir="auto">之後看看有沒有時間嘗試一下在llama.cpp上面用NVFP4, 不過llama.cpp好像沒針對Blackwell的NVFP4做什麽優化啊...</p>
]]></description><link>https://lcz.me/post/7717</link><guid isPermaLink="true">https://lcz.me/post/7717</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 15:24:12 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 15:16:12 GMT]]></title><description><![CDATA[<p dir="auto">MoQ技術探討</p>
<p dir="auto">其實MoQ在這裏并不是第一次出現, <a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> stxp大大<a href="https://lcz.me/topic/579/%E5%85%A8%E7%AB%99%E9%A6%96%E5%8F%91-rtx-3090-24g-%E6%97%A0%E7%97%9B%E7%88%BD%E7%8E%A9-%E5%8D%8E%E4%B8%BA%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90kv-cache%E6%A0%BC%E5%BC%8F-%E6%AF%8F%E6%97%A5%E6%9B%B4%E6%96%B0%E6%80%BB%E7%BB%93-%E5%B8%8C%E6%9C%9B3090%E5%8D%A1%E5%8F%8B%E8%BF%9B%E6%9D%A5%E8%AE%A8%E8%AE%BA/12?_=1782053528806">有在這裏發過帖子探討模型輸出的代碼素質</a>, 各位可以看完再繼續</p>
<p dir="auto">MoQ (Mixture of Quantization, 混合量化)最好被理解為一種 <strong>量化配方 (recipe)</strong>, 而不是單一的量化格式, 理論上他也能用在vLLM身上</p>
<ul>
<li>
<p dir="auto">訓練後量化 (Post-training quantization):  從 BF16/FP16 權重開始, 訓練完成後壓縮權重</p>
</li>
<li>
<p dir="auto">混合精度量化 (Mixed precision quantization): 不同的張量 (tensor) 會採用不同的格式, 不是像普通的K Quant那樣, 強迫整個模型使用單一格式</p>
</li>
<li>
<p dir="auto">顯著權重選擇: 比較重要的權重會保持在較高的精度, 較不敏感的張量則會被壓低精度, 這個就十分類似Autoround</p>
</li>
<li>
<p dir="auto">混合量化類型: MoQ支持混合多種格式, 例如 Q5_K, Q4_K, IQ4_XS, BF16或誇張點, FP32</p>
</li>
<li>
<p dir="auto">校準數據:  通常會由一個校準數據集 (calibration set) 或重要性矩陣 (importance-matrix) 風格的訊號來決定哪些權重可以承受較低的精度, 相對來説代表這個更像坊間為Qwen 3.6 27B加入Opus Reasoning訓練集</p>
</li>
<li>
<p dir="auto">部分層會受特別關照: 正規化層 (norms), 嵌入層 (embeddings), 輸出頭 (output heads), 循環網路/狀態空間模型組件 (recurrent/SSM pieces) 或與 MTP 相關的網絡會保留較高精度, 因為這些地方的微小誤差對預測結果 (logits) 會比單純壓縮網絡内部造成較大的影響</p>
</li>
<li>
<p dir="auto">運行時解壓縮 (Runtime Dequantization): llama.cpp在推論期間進行解壓, 理論上就會按照原先定好的量化類型進行解壓 (第四點)</p>
</li>
</ul>
<p dir="auto">資料來源: <a href="https://x.com/bnjmn_marie/status/2060051274545111177?s=20" rel="nofollow ugc">https://x.com/bnjmn_marie/status/2060051274545111177?s=20</a></p>
<p dir="auto">簡單一個類比就是:</p>
<blockquote>
<p dir="auto">MoQ 就像是在有嚴格重量限制的情況下打包行李出門旅行, 正常人不會把所有物品都換成最輕的版本, 會先把易碎或至關重要的物品放在合適的硬殼箱裡, 之後較耐用的物品用較輕的袋子裝, 而在損壞較大也無大礙的地方就隨便裝<br />
普通的 Q5_K_M 則是規定所有東西都必須使用同一種行李箱<br />
MoQ 則是每件物品都在能提供足夠保護的前提下, 使用最便宜/最輕的容器</p>
</blockquote>
<p dir="auto">這個模式基本上追隨Autoround的思路</p>
]]></description><link>https://lcz.me/post/7712</link><guid isPermaLink="true">https://lcz.me/post/7712</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 15:16:12 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 14:56:13 GMT]]></title><description><![CDATA[<p dir="auto">Bit Per Weight探討</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Model</th>
<th style="text-align:right">Local GGUF size</th>
<th style="text-align:right">Approx file bpw</th>
<th style="text-align:right">Note</th>
</tr>
</thead>
<tbody>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">19,834,053,760 bytes</td>
<td style="text-align:right">5.81</td>
<td style="text-align:right">基準Q5_K_M GGUF</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">19,535,700,032 bytes</td>
<td style="text-align:right">5.72</td>
<td style="text-align:right">減少約1.5%, 基本忽略不計</td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">16,540,767,424 bytes</td>
<td style="text-align:right">4.84</td>
<td style="text-align:right">減少約16.6%</td>
</tr>
</tbody>
</table>
<p dir="auto">儘管MoQ的BPW比Autoround Q5KM還低, 但是KLD其實也沒差太遠, PPL相差則可接受範圍, <em><strong>權重在顯存也比Autoround少大約2GB</strong></em>, 預留更多KV Cache空間, 應該也能當成主力使用</p>
<p dir="auto"><s>不過我應該要用Q4_K_M來比較才對, 畢竟他們的BPW比較類似, oh well it happened</s></p>
]]></description><link>https://lcz.me/post/7708</link><guid isPermaLink="true">https://lcz.me/post/7708</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 14:56:13 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 14:40:03 GMT]]></title><description><![CDATA[<p dir="auto">KLD, PPL測試</p>
<p dir="auto">llama.cpp本身支持這兩個數據, 前者可以當作跟基準模型的偏差值, 後者可以當成困惑度, 視作模型對於下個要預測的Token精準度就好 (越低代表模型預測能力越好)</p>
<p dir="auto">因爲VRAM大小沒辦法測試原生BF16/Q8, 所以單純以UD Unsloth Q5KM作爲基準模型</p>
<p dir="auto">上下文512,  32分塊, 測試文本沿用vLLM的在Readme提及的預設長篇Sherlock小説</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th style="text-align:right">PPL</th>
</tr>
</thead>
<tbody>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">1.2398 +/- 0.01457</td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">1.2796 +/- 0.01553</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">1.3137 +/- 0.01656</td>
</tr>
</tbody>
</table>
<hr />
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>基準</th>
<th style="text-align:right">Mean KLD</th>
<th style="text-align:right">99.9% KLD</th>
<th style="text-align:right">Same top-p</th>
</tr>
</thead>
<tbody>
<tr>
<td>MoQ 4.95</td>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">0.085771</td>
<td style="text-align:right">5.087046</td>
<td style="text-align:right">95.870%</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">0.138661</td>
<td style="text-align:right">7.634626</td>
<td style="text-align:right">94.645%</td>
</tr>
</tbody>
</table>
]]></description><link>https://lcz.me/post/7706</link><guid isPermaLink="true">https://lcz.me/post/7706</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 14:40:03 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 14:29:00 GMT]]></title><description><![CDATA[<p dir="auto">MTP測試</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th style="text-align:right">測試階段</th>
<th style="text-align:right">Generated draft tokens</th>
<th style="text-align:right">Accepted draft tokens</th>
<th style="text-align:right">Acceptance</th>
<th style="text-align:right">Mean acceptance length</th>
<th>Acceptance rate per position (first 3)</th>
</tr>
</thead>
<tbody>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">half</td>
<td style="text-align:right">56</td>
<td style="text-align:right">44</td>
<td style="text-align:right">78.571%</td>
<td style="text-align:right">3.32</td>
<td><code>(0.895, 0.842, 0.579)</code></td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">full</td>
<td style="text-align:right">51</td>
<td style="text-align:right">45</td>
<td style="text-align:right">88.235%</td>
<td style="text-align:right">3.65</td>
<td><code>(0.941, 0.882, 0.824)</code></td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">53</td>
<td style="text-align:right">45</td>
<td style="text-align:right">84.906%</td>
<td style="text-align:right">3.50</td>
<td><code>(0.944, 0.889, 0.667)</code></td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">57</td>
<td style="text-align:right">43</td>
<td style="text-align:right">75.439%</td>
<td style="text-align:right">3.15</td>
<td><code>(0.900, 0.650, 0.600)</code></td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">61</td>
<td style="text-align:right">42</td>
<td style="text-align:right">68.852%</td>
<td style="text-align:right">3.00</td>
<td><code>(0.857, 0.667, 0.476)</code></td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">51</td>
<td style="text-align:right">45</td>
<td style="text-align:right">88.235%</td>
<td style="text-align:right">3.65</td>
<td><code>(1.000, 0.882, 0.765)</code></td>
</tr>
</tbody>
</table>
]]></description><link>https://lcz.me/post/7705</link><guid isPermaLink="true">https://lcz.me/post/7705</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 14:29:00 GMT</pubDate></item><item><title><![CDATA[Reply to 淺談 llama.cpp 配合 RTX Pro 4500 簡單測試 Qwen 3.6 27B, MoQ,  AutoRound以及普通UD Q5KM on Sun, 21 Jun 2026 14:30:44 GMT]]></title><description><![CDATA[<p dir="auto">跨平臺<a href="https://github.com/eugr/llama-benchy" rel="nofollow ugc">llama-benchy</a>的數據</p>
<p dir="auto">tokenizer沿用vllm的<a href="https://huggingface.co/kaitchup/Qwen3.6-27B-autoround-nvfp4-linearattn-BF16" rel="nofollow ugc">kaitchup/Qwen3.6-27B-autoround-nvfp4-linearattn-mtp-BF16</a></p>
<p dir="auto">測試咒語</p>
<pre><code>~/llama-benchy/.venv/bin/llama-benchy --base-url http://127.0.0.1:8081/v1 --model Qwen3.6-27B-MTP-MoQ --served-model-name /models/Jianqiao1/Qwen3.6-27B-MTP-MoQ-GGUF/Qwen3.6-27B-MTP-MoQ-4.95.gguf --tokenizer ~/vllm/models/kaitchup/Qwen3.6-27B-autoround-nvfp4-linearattn-mtp-BF16 --pp 1024 --tg 64 --depth 98304 196608 --runs 1 --latency-mode generation --concurrency 1 --skip-coherence --post-run-cmd 'nvidia-smi --query-gpu=timestamp,memory.used,memory.total --format=csv,noheader,nounits' --save-result llama-benchy-moq-longctx.json --format json
</code></pre>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th style="text-align:right">測試階段</th>
<th style="text-align:right">上下文長度</th>
<th style="text-align:right">Avg latency</th>
<th style="text-align:right">TTFR</th>
<th style="text-align:right">Prefill tok/s</th>
<th style="text-align:right">Generation tok/s</th>
<th style="text-align:right">Peak tok/s</th>
</tr>
</thead>
<tbody>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">half</td>
<td style="text-align:right">98304</td>
<td style="text-align:right">107.74 ms</td>
<td style="text-align:right">101.23s</td>
<td style="text-align:right">982.37</td>
<td style="text-align:right">52.56</td>
<td style="text-align:right">56</td>
</tr>
<tr>
<td>MoQ 4.95</td>
<td style="text-align:right">full</td>
<td style="text-align:right">196608</td>
<td style="text-align:right">107.61 ms</td>
<td style="text-align:right">312.73s</td>
<td style="text-align:right">632.23</td>
<td style="text-align:right">40.22</td>
<td style="text-align:right">42</td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">98304</td>
<td style="text-align:right">156.26 ms</td>
<td style="text-align:right">107.96s</td>
<td style="text-align:right">921.55</td>
<td style="text-align:right">50.48</td>
<td style="text-align:right">53</td>
</tr>
<tr>
<td>Unsloth Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">196608</td>
<td style="text-align:right">148.79 ms</td>
<td style="text-align:right">323.88s</td>
<td style="text-align:right">610.53</td>
<td style="text-align:right">33.82</td>
<td style="text-align:right">41</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">half</td>
<td style="text-align:right">98304</td>
<td style="text-align:right">117.32 ms</td>
<td style="text-align:right">107.76s</td>
<td style="text-align:right">922.93</td>
<td style="text-align:right">44.01</td>
<td style="text-align:right">46</td>
</tr>
<tr>
<td>AutoRound Q5_K_M</td>
<td style="text-align:right">full</td>
<td style="text-align:right">196608</td>
<td style="text-align:right">114.29 ms</td>
<td style="text-align:right">323.57s</td>
<td style="text-align:right">611.04</td>
<td style="text-align:right">38.01</td>
<td style="text-align:right">41</td>
</tr>
</tbody>
</table>
<p dir="auto">不得不説這個比上篇的vllm差很多啊, 100K上下文vLLM也有60 tks, 是我的設定有問題還是本來就這麽差</p>
<p dir="auto">MoQ的各個速度都很高, 而且在長上下文的表現還不錯, 可能是因爲Bit per weight相對更小的關係</p>
]]></description><link>https://lcz.me/post/7701</link><guid isPermaLink="true">https://lcz.me/post/7701</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 21 Jun 2026 14:30:44 GMT</pubDate></item></channel></rss>