<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm)]]></title><description><![CDATA[<p dir="auto">看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限連發與反應速度，這幾天折騰的過程分享給大家，我主要場景是hermes agent,透過telgram發任務請求</p>
<h1>7900 XTX × 2 跑 Qwen3.6 27B 本地 LLM 測試報告</h1>
<p dir="auto"><strong>硬體</strong>：Z10PE-D16-WS 工作站主機板 × 雙 Xeon E5-2678v3（24C/48T）× 128GB DDR4 ECC × 雙 RX 7900 XTX 24GB<br />
<strong>系統</strong>：Ubuntu + ROCm / Vulkan（AMD GPU 的 Linux 推理框架）<br />
<strong>模型</strong>：Qwopus3.6-27B-v2-MTP（Unsloth 發布，基於 Qwen3.6 27B，內建 MTP 輔助頭）<br />
<strong>量化</strong>：IQ4_XS（4.25 bpw）<br />
<strong>時間</strong>：2026-06</p>
<hr />
<h2>名詞解釋（新手看這裡）</h2>
<blockquote>
<p dir="auto"><strong>量化（Quantization）</strong>：把模型權重壓縮存放，犧牲一點點精度換取更小的檔案和更快速度。</p>
<ul>
<li><strong>fp16</strong>：16-bit 浮點數，每個值 2 bytes，沒有壓縮，是 GPU 的「原始精度」。27B 模型 fp16 約需 54 GB VRAM，一般玩家裝不下。</li>
<li><strong>Q4_K_M</strong>：每個值平均 4.5 bpw（bits per weight），是最普遍的量化格式，品質好、速度穩定。</li>
<li><strong>IQ4_XS</strong>：每個值 4.25 bpw，比 Q4_K_M 稍微更壓縮，在 RDNA3 架構（7900 XTX）上因為 VRAM 佔用更少，實際跑起來反而<strong>更快</strong>。</li>
<li><strong>turbo4</strong>：beellama fork 獨有的 KV cache 量化，3.5 bpw，比 q4_0（4 bpw）更省 VRAM，用在 KV cache（不是模型本身）。</li>
</ul>
</blockquote>
<blockquote>
<p dir="auto"><strong>KV cache</strong>：模型在處理長對話時，會把「記憶」存在 VRAM 裡，稱為 KV cache。對話越長，佔用越多 VRAM。量化 KV cache 可以在不降低多少品質的前提下省 VRAM。</p>
</blockquote>
<blockquote>
<p dir="auto"><strong>MTP（Multi-Token Prediction）</strong>：一種加速推理的技術。模型一次預測多個「草稿 token」，再批次驗證，如果草稿正確就直接採用，不正確就丟掉重算。接受率越高速度越快，若接受率 0% 反而比不開更慢（多餘計算）。</p>
</blockquote>
<blockquote>
<p dir="auto"><strong>t/s（tokens per second）</strong>：每秒輸出多少個 token。中文大約 1 個 token = 1 個字，英文 1 個 token ≈ 0.75 個單字。一般對話感覺順暢約需 20+ t/s。</p>
</blockquote>
<hr />
<h2>背景與問題</h2>
<p dir="auto">之前在 <strong>Win11 + Vulkan</strong> 跑 Qwen3.6 27B 可以穩定 60-80 t/s，換到 <strong>Ubuntu + ROCm</strong> 後掉到 28-33 t/s，本篇記錄怎麼找回速度。</p>
<hr />
<h2>測試過程</h2>
<h3>階段一：找出 ROCm 慢的原因</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>配置</th>
<th>速度</th>
<th>備註</th>
</tr>
</thead>
<tbody>
<tr>
<td>goodbyecain b9256 + Q4_K_M + q4_0 KV</td>
<td>22-27 t/s</td>
<td>舊主力，最慢</td>
</tr>
<tr>
<td>goodbyecain b9256 + IQ4_XS + q4_0 KV</td>
<td>30-33 t/s</td>
<td>換小量化有幫助</td>
</tr>
<tr>
<td>Vulkan build + IQ4_XS（無 MTP）</td>
<td>31-33 t/s</td>
<td>Vulkan base 跟 ROCm 差不多</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>發現</strong>：Vulkan base 速度跟 ROCm 幾乎一樣。Win11 快那麼多，關鍵不在 Vulkan vs ROCm，而是 <strong>MTP 能否有效運作</strong>。</p>
<h3>階段二：MTP 在 Linux 上的問題</h3>
<p dir="auto"><strong>原始結論（goodbyecain b9256，AMD 7900 XTX）</strong>：Vulkan MTP 接受率約 0.7%，幾乎無效。</p>
<p dir="auto"><strong>更新（2026-06-22，upstream b9377）</strong>：實測後確認 issue #22842 已在新版修復。同樣硬體（AMD 7900 XTX），升級到 upstream b9377 之後：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>配置</th>
<th>MTP 接受率</th>
<th>速度</th>
</tr>
</thead>
<tbody>
<tr>
<td>goodbyecain b9256 + Vulkan</td>
<td>~0.7%</td>
<td>31-33 t/s</td>
</tr>
<tr>
<td><strong>upstream b9377 + Vulkan（實測）</strong></td>
<td><strong>53.5%</strong></td>
<td><strong>49.8 t/s</strong></td>
</tr>
<tr>
<td>goodbyecain b9256 + ROCm</td>
<td>54-77%</td>
<td>39-42 t/s</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>結論更新</strong>：舊版 Vulkan MTP 確實有 bug，新版已修。AMD 7900 XTX 上新版 Vulkan MTP 接受率（53.5%）與 ROCm 相近，速度更快（49.8 vs 39-42 t/s）。<strong>如果你在 AMD GPU 上跑 Vulkan，建議升級到 upstream b9377 以上。</strong></p>
<h3>階段三：beellama + TurboQuant（turbo4 KV cache）</h3>
<p dir="auto"><a href="https://github.com/Anbeeld/beellama" rel="nofollow ugc">beellama</a>（v0.3.2）是 llama.cpp 的非官方 fork，加入了 <strong>TurboQuant</strong>（ICLR 2026 論文），一種更激進的 KV cache 量化方式，稱為 <code>turbo4</code>（3.5 bpw，比標準 q4_0 的 4 bpw 更壓縮）。</p>
<p dir="auto">更省 VRAM → KV cache 更小 → MTP draft 驗證更快 → <strong>接受率更高</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>配置</th>
<th>速度</th>
<th>MTP 接受率</th>
</tr>
</thead>
<tbody>
<tr>
<td>beellama + IQ4_XS + turbo4 KV + n=4 草稿</td>
<td>38-40 t/s</td>
<td>~38%（n4 太多，浪費）</td>
</tr>
<tr>
<td><strong>beellama + IQ4_XS + turbo4 KV + n=3 草稿</strong></td>
<td><strong>39-42 t/s</strong></td>
<td><strong>54-77%</strong></td>
</tr>
</tbody>
</table>
<p dir="auto">n=4 表示一次預測 4 個草稿 token，但這個模型在 n=4 時常常只接受 0 或 1 個，白費算力；n=3 接受率更穩定。</p>
<h3>階段四：Context 大小與速度曲線</h3>
<p dir="auto"><strong>Vulkan b9377（q4_0 KV，65K ctx，2026-06-22 實測）：</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Context 大小</th>
<th>速度</th>
<th>備註</th>
</tr>
</thead>
<tbody>
<tr>
<td>1K–5K tokens</td>
<td>72–75 t/s</td>
<td>KV cache 小，attention 快</td>
</tr>
<tr>
<td>5K–17K tokens</td>
<td>70–72 t/s</td>
<td>輕微下降</td>
</tr>
<tr>
<td>27K tokens</td>
<td>40.7 t/s</td>
<td>明顯減速</td>
</tr>
<tr>
<td>48K tokens</td>
<td>34.7 t/s</td>
<td>趨於穩定</td>
</tr>
<tr>
<td>59K tokens</td>
<td>35.7 t/s</td>
<td>大 context 底限</td>
</tr>
</tbody>
</table>
<p dir="auto">Vulkan b9377 在短 context 下速度驚人，但隨 context 成長速度明顯衰減。在 48K+ 時（35 t/s），ROCm beellama + turbo4（39-42 t/s）反而更快，因為 turbo4 KV cache 更小（3.5 bpw vs 4 bpw），attention bandwidth 占用更少。</p>
<h3>階段五：KV cache 精度（q4_0 vs q8_0）對 MTP 的影響</h3>
<p dir="auto">這個發現比較意外：<strong>KV cache 精度直接影響 MTP 接受率</strong>。</p>
<p dir="auto">原因：MTP 的 draft head 在驗證草稿 token 時，需要讀取已有 token 的 KV cache 做 attention。KV cache 精度越低，attention 結果的誤差越大，導致 draft 驗證時機率分佈偏移，更多草稿被拒絕。</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>KV cache 格式</th>
<th>VRAM（65K ctx）</th>
<th>MTP 接受率</th>
<th>速度</th>
</tr>
</thead>
<tbody>
<tr>
<td>q4_0（4 bpw）</td>
<td>73%（~18GB）</td>
<td>38-51%</td>
<td>35-42 t/s</td>
</tr>
<tr>
<td><strong>q8_0（8 bpw）</strong></td>
<td><strong>75%（~18.4GB）</strong></td>
<td><strong>52-57%</strong></td>
<td><strong>44-51 t/s</strong></td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>只多用 2% VRAM（約 400MB），速度提升 25%。</strong> 這是這次測試中 CP 值最高的發現。</p>
<p dir="auto">128K context 也測了：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>配置</th>
<th>VRAM</th>
<th>速度</th>
</tr>
</thead>
<tbody>
<tr>
<td>128K + q4_0</td>
<td>76%</td>
<td>~40 t/s（短 ctx）</td>
</tr>
<tr>
<td>128K + q8_0</td>
<td>84%（~20.6GB）</td>
<td>47-52 t/s</td>
</tr>
</tbody>
</table>
<p dir="auto">兩種 128K 配置都能裝進 24GB 的 7900 XTX，之前 ROCm beellama 128K 溢出是 ROCm 的記憶體管理問題，Vulkan 不同。</p>
<h3>階段六：AMD GPU 時脈陷阱</h3>
<p dir="auto"><strong>症狀</strong>：同樣配置，server 第一次啟動時速度明顯比後來重啟的慢。</p>
<p dir="auto"><strong>根本原因</strong>：AMD GPU 在 <code>auto</code> 效能模式下，閒置時 shader clock（sclk）會降到 <strong>25-87 MHz</strong>（正常推理需要 2371 MHz）。新啟動的 server 若沒有立即收到請求，GPU 時脈爬升不及，前幾個 query 在極低頻率下跑。</p>
<p dir="auto"><strong>驗證</strong>：在推理進行時監控 sclk：</p>
<ul>
<li>閒置：25 MHz</li>
<li>推理中：2080 → 2369 → 2400 MHz（正常）</li>
<li>推理結束：立刻掉回 94 MHz</li>
</ul>
<p dir="auto"><strong>解法</strong>：手動鎖定 sclk 和 mclk 到最高頻：</p>
<pre><code class="language-bash"># 需要 sudo
rocm-smi --device 0 --setperflevel manual
echo "2" &gt; /sys/class/drm/card0/device/pp_dpm_sclk  # 鎖 sclk → 2371 MHz
echo "3" &gt; /sys/class/drm/card0/device/pp_dpm_mclk  # 鎖 mclk → 1249 MHz
</code></pre>
<p dir="auto"><strong>注意</strong>：<code>card0</code> 編號因系統而異，用 <code>ls /sys/class/drm/card*/device/pp_dpm_sclk</code> 查詢。</p>
<h3>階段七：server 層 sampling 參數會殺死 MTP</h3>
<p dir="auto"><strong>症狀</strong>：在 llama-server 啟動時加了 <code>--presence-penalty 1.5 --top-k 20</code>，MTP 接受率從 54% 掉到 41%，速度從 52 t/s 掉到 37 t/s。</p>
<p dir="auto"><strong>原因</strong>：MTP 的 draft head 預測的是「原始機率分佈」，不知道有 sampling 限制。當 server 強制 top-k 20 時，很多 draft head 認為高機率的 token 其實在 top-20 之外，被過濾掉，導致接受率下降。</p>
<p dir="auto"><strong>解法</strong>：server 層不設 sampling 參數，讓 client 每次 request 自帶。這樣 MTP 在驗證時用的是完整分佈，接受率恢復正常。</p>
<hr />
<h2>最終最佳配置（2026-06-22 更新）</h2>
<p dir="auto"><strong>使用軟體</strong>：upstream llama.cpp（b9377 以上，標準 Vulkan build）<br />
<strong>模型</strong>：Qwopus3.6-27B-v2-MTP IQ4_XS（<a href="https://huggingface.co/unsloth/Qwen3.6-27B-GGUF" rel="nofollow ugc">Unsloth HuggingFace</a>）</p>
<pre><code class="language-bash">#!/bin/bash
# 先鎖 GPU 時脈（需 sudo）
sudo rocm-smi --device 0 --setperflevel manual
sudo bash -c "echo '2' &gt; /sys/class/drm/card2/device/pp_dpm_sclk"
sudo bash -c "echo '3' &gt; /sys/class/drm/card2/device/pp_dpm_mclk"

export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json

SERVER=/path/to/llama.cpp/build-vulkan/bin/llama-server
MODEL=/path/to/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf

"$SERVER" \
  --host 0.0.0.0 --port 8080 \
  --device Vulkan0 \            # 指定 GPU0
  -m "$MODEL" \
  --alias "unsloth/Qwen3.6-27B-GGUF" \
  --spec-type draft-mtp \       # 開啟 MTP 推測解碼
  --spec-draft-n-max 3 \        # 一次預測 3 個草稿 token
  -ngl 99 \                     # 全部層放 GPU
  --ctx-size 65536 \            # 65K context
  -n 8192 \
  -b 2048 -ub 512 -np 1 \
  --cache-type-k q8_0 \         # q8_0 KV cache（比 q4_0 接受率高 10-15%）
  --cache-type-v q8_0 \
  --no-mmap --mlock \
  --flash-attn on \
  --jinja --no-warmup --reasoning off
  # 注意：不在 server 層設 sampling 參數（top-k/presence-penalty 會降低 MTP 接受率）
</code></pre>
<hr />
<h2>速度總結</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>配置</th>
<th>速度</th>
<th>vs 舊主力</th>
</tr>
</thead>
<tbody>
<tr>
<td>goodbyecain + Q4_K_M + q4_0（舊主力）</td>
<td>22-27 t/s</td>
<td>基準</td>
</tr>
<tr>
<td>goodbyecain + IQ4_XS + q4_0</td>
<td>30-33 t/s</td>
<td>+25%</td>
</tr>
<tr>
<td>Vulkan 無 MTP（b9256）</td>
<td>31-33 t/s</td>
<td>+25%</td>
</tr>
<tr>
<td>beellama + IQ4_XS + turbo4 + n3 MTP（ROCm）</td>
<td>39-42 t/s</td>
<td>+60%</td>
</tr>
<tr>
<td>Vulkan b9377 + IQ4_XS + q4_0 + n3 MTP</td>
<td>35-42 t/s</td>
<td>+50%</td>
</tr>
<tr>
<td><strong>Vulkan b9377 + IQ4_XS + q8_0 + n3 MTP（現役）</strong></td>
<td><strong>44-51 t/s</strong></td>
<td><strong>+90%</strong></td>
</tr>
</tbody>
</table>
<hr />
<h2>關鍵結論</h2>
<ol>
<li><strong>Vulkan MTP bug 已在 b9377 修復</strong>（issue #22842）：舊版 b9256 接受率 0.7%，新版 53%+</li>
<li><strong>q8_0 KV cache 比 q4_0 快 25%</strong>：只多用 2% VRAM，MTP 接受率從 42% 升到 54%，CP 值最高的優化</li>
<li><strong>server 層 sampling 參數會殺 MTP</strong>：<code>--presence-penalty</code>、<code>--top-k</code> 等讓 draft 被過濾，接受率掉 10-15%；改由 client 每次帶</li>
<li><strong>AMD GPU 時脈陷阱</strong>：<code>auto</code> 模式閒置時 sclk 掉到 25-87 MHz，啟動 server 前要先鎖時脈</li>
<li><strong>n=3 草稿比 n=4 好</strong>：接受率更穩定，不浪費算力</li>
<li><strong>65K 是 Vulkan 的甜蜜點</strong>，128K q8_0 也能裝（84% VRAM），但速度差不多</li>
<li><strong>IQ4_XS 比 Q4_K_M 快</strong>：VRAM footprint 更小，MTP 批次更有效率</li>
</ol>
<hr />
<h2>已知限制</h2>
<ul>
<li><strong>結構化輸出（JSON schema）時 MTP 失效</strong>：grammar constraint 會讓 MTP 接受率歸零，速度掉回 ~21 t/s。這是 llama.cpp 的已知問題。</li>
<li><strong>Win11 的 60-80 t/s 差距</strong>：現在 Linux Vulkan 已可到 44-51 t/s，差距縮小。Windows 快的部分原因可能是 grammar 限制較少，還在研究中。</li>
</ul>
<hr />
<h2>相關連結</h2>
<ul>
<li><a href="https://github.com/Anbeeld/beellama" rel="nofollow ugc">beellama（TurboQuant fork）</a></li>
<li><a href="https://huggingface.co/unsloth/Qwen3.6-27B-GGUF" rel="nofollow ugc">Qwopus3.6-27B-v2-MTP（Unsloth）</a></li>
<li>llama.cpp Vulkan MTP 問題：issue #22842</li>
<li>TurboQuant 論文：ICLR 2026（beellama README 有連結）</li>
</ul>
]]></description><link>https://lcz.me/topic/644/看目前這社區越來越多人買7900xtx了-大家為了一個爽度token無限發與反應速度-這幾天折騰的過程分享給大家-win11-vulkan-ubuntu-rocm</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 08:03:39 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/644.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 21 Jun 2026 11:06:16 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 07:27:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 你先用deepseek v4 flash幫你把hermes搜索工具設定好,跟把soul跟memory也寫好搜索的時候要跑哪些工具,避免本地模型調用工具能力不足的地方他會不斷重試跑老半天跑不出來,讓在線雲端api (ds4 flash)幫你把本地的工作流都設計好,之後你就可以爽用本地端的hermes agent,</p>
]]></description><link>https://lcz.me/post/8486</link><guid isPermaLink="true">https://lcz.me/post/8486</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sat, 27 Jun 2026 07:27:26 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 02:19:14 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 我就问了他一个问题：“吉利领克08车机如何通过adb安装应用？“，deepseek v4 flash 调用的时候感觉也没那么时间长。其实开始的时候挺顺利的，就是到navigate <a href="http://google.com" rel="nofollow ugc">google.com</a> 这个工具调用的时候生成了60000多个字符才被hermes强制截断结束。感觉挺奇怪的。不过这个vulkan比rocm快好多。这个挺好的。</p>
]]></description><link>https://lcz.me/post/8455</link><guid isPermaLink="true">https://lcz.me/post/8455</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Sat, 27 Jun 2026 02:19:14 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 02:10:59 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 这个正常，输出长度超过上限，被截断了，你问题是你在干什么，可以分段输出。另外我不拍片，我不是老师，我和你一样，是观众。</p>
]]></description><link>https://lcz.me/post/8453</link><guid isPermaLink="true">https://lcz.me/post/8453</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 27 Jun 2026 02:10:59 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 02:09:45 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 老师，但是它在的decode的时候生成将近60000个字符之后系统强制停止的。Response truncated (finish_reason='length')，感觉它不知道啥时候停止，最后hermes把结果截断了。</p>
]]></description><link>https://lcz.me/post/8452</link><guid isPermaLink="true">https://lcz.me/post/8452</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Sat, 27 Jun 2026 02:09:45 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 02:06:40 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 正常，显卡在prefill，没有缓存的话预填充要很久。</p>
]]></description><link>https://lcz.me/post/8451</link><guid isPermaLink="true">https://lcz.me/post/8451</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 27 Jun 2026 02:06:40 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sat, 27 Jun 2026 02:06:51 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: agi">@<bdi>agi</bdi></a> <a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: chia-an-yang">@<bdi>chia-an-yang</bdi></a> 两位老师我跑通了，但是我用hermes的时候工具调用感觉卡了额，我的7900xtx在疯狂的生成，但是hermes却卡住了。请问两位遇到过类似的问题吗？<br />
llama.cpp 输出：</p>
<p dir="auto">65.27 t/s, tg_3s =  55.86 t/s<br />
36.30.567.224 I slot print_timing: id  0 | task 8648 | n_decoded =  62072, tg =  65.24 t/s, tg_3s =  55.84 t/s<br />
36.33.579.807 I slot print_timing: id  0 | task 8648 | n_decoded =  62240, tg =  65.21 t/s, tg_3s =  55.77 t/s<br />
36.36.592.579 I slot print_timing: id  0 | task 8648 | n_decoded =  62408, tg =  65.18 t/s, tg_3s =  55.76 t/s<br />
36.39.607.362 I slot print_timing: id  0 | task 8648 | n_decoded =  62576, tg =  65.15 t/s, tg_3s =  55.73 t/s<br />
36.42.629.501 I slot print_timing: id  0 | task 8648 | n_decoded =  62744, tg =  65.12 t/s, tg_3s =  55.59 t/s<br />
36.45.651.508 I slot print_timing: id  0 | task 8648 | n_decoded =  62912, tg =  65.09 t/s, tg_3s =  55.59 t/s<br />
36.48.669.380 I slot print_timing: id  0 | task 8648 | n_decoded =  63080, tg =  65.06 t/s, tg_3s =  55.67 t/s<br />
36.51.697.721 I slot print_timing: id  0 | task 8648 | n_decoded =  63247, tg =  65.03 t/s, tg_3s =  55.15 t/s<br />
36.54.730.154 I slot print_timing: id  0 | task 8648 | n_decoded =  63415, tg =  65.00 t/s, tg_3s =  55.40 t/s<br />
36.57.762.852 I slot print_timing: id  0 | task 8648 | n_decoded =  63583, tg =  64.97 t/s, tg_3s =  55.40 t/s<br />
37.00.794.845 I slot print_timing: id  0 | task 8648 | n_decoded =  63751, tg =  64.94 t/s, tg_3s =  55.41 t/s</p>
<p dir="auto">hermes输出：</p>
<p dir="auto"><a href="%5B%5Berror:parse-error%5D%5D">c09f0fd3-2890-42e1-838f-8e36a2ab527b-bd93db497055bc01fe89b39dc4f1a308915fe680.rtfd</a></p>
<p dir="auto">preparing browser_navigate...<br />
navigate<br />
<a href="http://search.yahoo.com" rel="nofollow ugc">search.yahoo.com</a><br />
14.2s</p>
<ul>
<li>Hermes<br />
Let me try a more targeted search.<br />
A<br />
preparing browser_navigate... navigate <a href="http://www.google.com" rel="nofollow ugc">www.google.com</a><br />
3.35<br />
Response truncated (finish_reason='length')<br />
preparing browser_navigate...<br />
navigate <a href="http://duckduckgo.com" rel="nofollow ugc">duckduckgo.com</a> 20.5s preparing browser_scroll...<br />
↓<br />
scroll<br />
down 0.2s<br />
LOI<br />
preparing browser_snapshot...<br />
snapshot compact 0.2s preparing browser_navigate... navigate <a href="http://duckduckgo.com" rel="nofollow ugc">duckduckgo.com</a> 1.5s<br />
(&gt;** cogitating...<br />
model hit max output toke</li>
<li>qwen3.6-27b 30,9K/131.1K [<br />
1］24% ｜36m ｜020</li>
</ul>
]]></description><link>https://lcz.me/post/8449</link><guid isPermaLink="true">https://lcz.me/post/8449</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Sat, 27 Jun 2026 02:06:51 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Fri, 26 Jun 2026 11:00:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: AGI">@<bdi>AGI</bdi></a> 这个头不能开，说的很清楚，这个UI丑，可以专门发帖提出来。<br />
论坛有专门的板块，可以随便聊聊，也可以到公告区回复帖子。<br />
这种人发帖的动机是什么？他发帖的时候，从未考虑过是否影响公共秩序，对这种人，我的原则就是绝不姑息。</p>
<p dir="auto">另外，虽然不太重要，我认为这个UI即便算不上好看，它怎么也算不上丑。当然了，说它丑是自由，但这不是这人被我骂的原因。</p>
]]></description><link>https://lcz.me/post/8387</link><guid isPermaLink="true">https://lcz.me/post/8387</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 26 Jun 2026 11:00:04 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Fri, 26 Jun 2026 09:08:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 你的性格也太直了，看Ytb能感觉出来，但是既然大家都来了，感觉可以允许有不同意见，这个ui丑，又不是你的过错，解释清楚就可以了。</p>
]]></description><link>https://lcz.me/post/8371</link><guid isPermaLink="true">https://lcz.me/post/8371</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Fri, 26 Jun 2026 09:08:26 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Fri, 26 Jun 2026 09:03:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: chia-an-yang">@<bdi>chia-an-yang</bdi></a> <a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: agi">@<bdi>agi</bdi></a> 谢谢两位老师，我先换成vulkan试一试。</p>
]]></description><link>https://lcz.me/post/8368</link><guid isPermaLink="true">https://lcz.me/post/8368</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Fri, 26 Jun 2026 09:03:43 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Thu, 25 Jun 2026 22:34:40 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/python96998" aria-label="Profile: python96998">@<bdi>python96998</bdi></a> 你可以在随便聊聊板块专门发帖，说出你对论坛UI的感受，可以说出哪里丑，这是你作为访客的权利，也可以提出改进建议。</p>
<p dir="auto">这是个技术话题的帖子，你在这里如此回帖，是缺乏教养的表现。你不是宇宙的中心，这个论坛不是你的许愿池，如此缺乏教养就会被我扇耳光，被骂然后被禁言。煞笔东西。</p>
]]></description><link>https://lcz.me/post/8273</link><guid isPermaLink="true">https://lcz.me/post/8273</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 25 Jun 2026 22:34:40 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Thu, 25 Jun 2026 16:06:58 GMT]]></title><description><![CDATA[<p dir="auto">这个论坛的界面太丑了吧</p>
]]></description><link>https://lcz.me/post/8248</link><guid isPermaLink="true">https://lcz.me/post/8248</guid><dc:creator><![CDATA[python96998]]></dc:creator><pubDate>Thu, 25 Jun 2026 16:06:58 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Thu, 25 Jun 2026 11:17:51 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 建議vulkan順很多</p>
<p dir="auto">#!/bin/bash</p>
<h1>先鎖 GPU 時脈（需 sudo）</h1>
<p dir="auto">sudo rocm-smi --device 0 --setperflevel manual<br />
sudo bash -c "echo '2' &gt; /sys/class/drm/card2/device/pp_dpm_sclk"<br />
sudo bash -c "echo '3' &gt; /sys/class/drm/card2/device/pp_dpm_mclk"</p>
<p dir="auto">export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json</p>
<p dir="auto">SERVER=/path/to/llama.cpp/build-vulkan/bin/llama-server<br />
MODEL=/path/to/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf</p>
<p dir="auto">"$SERVER" <br />
--host 0.0.0.0 --port 8080 <br />
--device Vulkan0 \            # 指定 GPU0<br />
-m "$MODEL" <br />
--alias "unsloth/Qwen3.6-27B-GGUF" <br />
--spec-type draft-mtp \       # 開啟 MTP 推測解碼<br />
--spec-draft-n-max 3 \        # 一次預測 3 個草稿 token<br />
-ngl 99 \                     # 全部層放 GPU<br />
--ctx-size 65536 \            # 65K context<br />
-n 8192 <br />
-b 2048 -ub 512 -np 1 <br />
--cache-type-k q8_0 \         # q8_0 KV cache（比 q4_0 接受率高 10-15%）<br />
--cache-type-v q8_0 <br />
--no-mmap --mlock <br />
--flash-attn on <br />
--jinja --no-warmup --reasoning off</p>
<h1>注意：不在 server 層設 sampling 參數（top-k/presence-penalty 會降低 MTP 接受率）</h1>
]]></description><link>https://lcz.me/post/8231</link><guid isPermaLink="true">https://lcz.me/post/8231</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Thu, 25 Jun 2026 11:17:51 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Thu, 25 Jun 2026 07:32:36 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 我用的是vulkan，你用的是rocm吧？</p>
]]></description><link>https://lcz.me/post/8226</link><guid isPermaLink="true">https://lcz.me/post/8226</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Thu, 25 Jun 2026 07:32:36 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Thu, 25 Jun 2026 06:53:01 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> <a href="https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main" rel="nofollow ugc">https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main</a></p>
]]></description><link>https://lcz.me/post/8220</link><guid isPermaLink="true">https://lcz.me/post/8220</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Thu, 25 Jun 2026 06:53:01 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Wed, 24 Jun 2026 13:22:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: agi">@<bdi>agi</bdi></a> 您好！我也是用7900xtx显卡，使用<br />
/usr/local/bin/llama-server <br />
-m ./models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf <br />
--mmproj ./models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf <br />
-c 131072 <br />
--parallel 1 <br />
-b 2048 <br />
-ub 512 <br />
-fa 1 <br />
-ngl 99 <br />
-t 16 <br />
--spec-type draft-mtp <br />
--cache-type-k q5_0 <br />
--cache-type-v q4_1 <br />
--no-mmap <br />
--temp 0.4 <br />
--spec-draft-n-max 3 <br />
--top-p 0.95 <br />
--top-k 20 <br />
--host 0.0.0.0 <br />
--port 8080 <br />
--tools all</p>
<p dir="auto">启动llama.cpp, 但是遇到oom的错误如下：<br />
/usr/local/bin/llama-server     -m ./models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf     --mmproj ./models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf     -c 131072     --parallel 1     -b 2048     -ub 512     -fa 1     -ngl 99     -t 16     --spec-type draft-mtp     --cache-type-k q5_0     --cache-type-v q4_1     --no-mmap     --temp 0.4     --spec-draft-n-max 3     --top-p 0.95     --top-k 20     --host 0.0.0.0     --port 8080     --tools all<br />
0.00.014.095 I log_info: verbosity = 3 (adjust with the <code>-lv N</code> CLI arg)<br />
0.00.014.097 I device_info:<br />
0.00.014.112 I   - ROCm0   : Radeon RX 7900 XTX (24560 MiB, 24524 MiB free)<br />
0.00.014.154 I   - ROCm1   : AMD Radeon Graphics (47068 MiB, 89322 MiB free)<br />
0.00.014.156 I   - CPU     : AMD Ryzen 7 9700X 8-Core Processor (94137 MiB, 94137 MiB free)<br />
0.00.014.207 I system_info: n_threads = 16 (n_threads_batch = 16) / 16 | ROCm : NO_VMM = 1 | PEER_MAX_BATCH_SIZE = 128 | CPU : SSE3 = 1 | SSSE3 = 1 | AVX = 1 | AVX_VNNI = 1 | AVX2 = 1 | F16C = 1 | FMA = 1 | BMI2 = 1 | AVX512 = 1 | AVX512_VBMI = 1 | AVX512_VNNI = 1 | AVX512_BF16 = 1 | LLAMAFILE = 1 | OPENMP = 1 | REPACK = 1 |<br />
0.00.014.234 I srv          init: running without SSL<br />
0.00.014.273 I srv          init: using 15 threads for HTTP server<br />
0.00.014.473 W srv  llama_server: -----------------<br />
0.00.014.474 W srv  llama_server: Built-in tools are enabled, do not expose server to untrusted environments<br />
0.00.014.474 W srv  llama_server: This feature is EXPERIMENTAL and may be changed in the future<br />
0.00.014.474 W srv  llama_server: -----------------<br />
0.00.014.481 I srv         start: binding port with default address family<br />
0.00.015.619 I srv  llama_server: loading model<br />
0.00.015.661 I srv    load_model: loading model './models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf'<br />
0.00.052.136 I srv    load_model: [mtmd] estimated worst-case memory usage of mmproj is 1157.64 MiB (took 36.45 ms)<br />
0.00.295.983 I srv    load_model: [spec] estimated memory usage of MTP context is 708.02 MiB<br />
0.00.296.004 I common_init_result: fitting params to device memory ...<br />
0.00.296.004 I common_init_result: (for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on)<br />
0.00.517.578 W common_fit_params: failed to fit params to free device memory: n_gpu_layers already set by user to 99, abort<br />
0.01.810.285 W llama_context: n_ctx_seq (131072) &lt; n_ctx_train (262144) -- the full capacity of the model will not be utilized<br />
0.01.838.385 I common_init_from_params: warming up the model with an empty run - please wait ... (--no-warmup to disable)<br />
0.01.916.196 I srv    load_model: creating MTP draft context against the target model './models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf'<br />
0.01.916.222 W llama_context: n_ctx_seq (131072) &lt; n_ctx_train (262144) -- the full capacity of the model will not be utilized<br />
0.01.932.754 W load_hparams: Qwen-VL models require at minimum 1024 image tokens to function correctly on grounding tasks<br />
0.01.932.756 W load_hparams: if you encounter problems with accuracy, try adding --image-min-tokens 1024<br />
0.01.932.756 W load_hparams: more info: <a href="https://github.com/ggml-org/llama.cpp/issues/16842" rel="nofollow ugc">https://github.com/ggml-org/llama.cpp/issues/16842</a></p>
<p dir="auto">0.01.933.558 E ggml_backend_cuda_buffer_type_alloc_buffer: allocating 884.62 MiB on device 0: cudaMalloc failed: out of memory<br />
0.01.933.561 E alloc_tensor_range: failed to allocate ROCm0 buffer of size 927588992<br />
/home/liubo/llama.cpp/ggml/src/ggml-backend.cpp:179: GGML_ASSERT(buffer) failed<br />
[New LWP 459888]<br />
[New LWP 459887]<br />
[New LWP 459886]<br />
[New LWP 459885]<br />
[New LWP 459884]<br />
[New LWP 459883]<br />
[New LWP 459882]<br />
[New LWP 459881]<br />
[New LWP 459880]<br />
[New LWP 459879]<br />
[New LWP 459878]<br />
[New LWP 459877]<br />
[New LWP 459876]<br />
[New LWP 459875]<br />
[New LWP 459874]<br />
[New LWP 459717]<br />
[New LWP 459716]<br />
[New LWP 459715]<br />
[New LWP 459714]<br />
[New LWP 459713]<br />
[New LWP 459712]<br />
[New LWP 459711]<br />
[New LWP 459710]<br />
[New LWP 459709]<br />
[New LWP 459708]<br />
[New LWP 459707]<br />
[New LWP 459706]<br />
[New LWP 459705]<br />
[New LWP 459704]<br />
[New LWP 459703]<br />
[New LWP 459702]<br />
[New LWP 459700]<br />
[New LWP 459699]<br />
[New LWP 459696]</p>
<p dir="auto">This GDB supports auto-downloading debuginfo from the following URLs:<br />
<a href="https://debuginfod.ubuntu.com" rel="nofollow ugc">https://debuginfod.ubuntu.com</a><br />
Enable debuginfod for this session? (y or [n]) [answered N; input not from terminal]<br />
Debuginfod has been disabled.<br />
To make this setting permanent, add 'set debuginfod enabled off' to .gdbinit.<br />
[Thread debugging using libthread_db enabled]<br />
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".<br />
0x0000762b61110813 in __GI___wait4 (pid=459889, stat_loc=0x0, options=0, usage=0x0) at ../sysdeps/unix/sysv/linux/wait4.c:30<br />
warning: 30	../sysdeps/unix/sysv/linux/wait4.c: No such file or directory<br />
#0  0x0000762b61110813 in __GI___wait4 (pid=459889, stat_loc=0x0, options=0, usage=0x0) at ../sysdeps/unix/sysv/linux/wait4.c:30<br />
30	in ../sysdeps/unix/sysv/linux/wait4.c<br />
#1  0x0000762b6134e663 in ggml_print_backtrace () from /home/liubo/llama.cpp/build/bin/libggml-base.so.0<br />
#2  0x0000762b6134e80b in ggml_abort () from /home/liubo/llama.cpp/build/bin/libggml-base.so.0<br />
#3  0x0000762b61367611 in ggml_backend_buffer_set_usage () from /home/liubo/llama.cpp/build/bin/libggml-base.so.0<br />
#4  0x0000762b617a75e8 in clip_model_loader::load_tensors(clip_ctx&amp;) () from /home/liubo/llama.cpp/build/bin/libmtmd.so.0<br />
#5  0x0000762b61795dcd in clip_init(char const*, clip_context_params) () from /home/liubo/llama.cpp/build/bin/libmtmd.so.0<br />
#6  0x0000762b6170987c in mtmd_context::mtmd_context(char const*, llama_model const*, mtmd_context_params const&amp;, bool) () from /home/liubo/llama.cpp/build/bin/libmtmd.so.0<br />
#7  0x0000762b61703211 in mtmd_init_from_file () from /home/liubo/llama.cpp/build/bin/libmtmd.so.0<br />
#8  0x0000762b619aab79 in server_context_impl::load_model(common_params&amp;) () from /home/liubo/llama.cpp/build/bin/libllama-server-impl.so<br />
#9  0x0000762b618e4a48 in llama_server(int, char**) () from /home/liubo/llama.cpp/build/bin/libllama-server-impl.so<br />
#10 0x0000762b6102a1ca in __libc_start_call_main (main=main@entry=0x5e6c5fa22270 &lt;main&gt;, argc=argc@entry=40, argv=argv@entry=0x7fffc3eb01c8) at ../sysdeps/nptl/libc_start_call_main.h:58<br />
warning: 58	../sysdeps/nptl/libc_start_call_main.h: No such file or directory<br />
#11 0x0000762b6102a28b in __libc_start_main_impl (main=0x5e6c5fa22270 &lt;main&gt;, argc=40, argv=0x7fffc3eb01c8, init=&lt;optimized out&gt;, fini=&lt;optimized out&gt;, rtld_fini=&lt;optimized out&gt;, stack_end=0x7fffc3eb01b8) at ../csu/libc-start.c:360<br />
warning: 360	../csu/libc-start.c: No such file or directory<br />
#12 0x00005e6c5fa222a5 in _start ()<br />
[Inferior 1 (process 459658) detached]<br />
Aborted (core dumped)</p>
<p dir="auto">请问是我哪步弄错了吗？我问了gemini,它让我减少上下文，q4我可运行，占用21.5g，我加上q4和q5模型的权重差，我大概差1g的内存。我们几乎是一样的环境。感谢！!</p>
<p dir="auto"><a href="https://upload.lcz.me/uploads/f867f2a8-665d-46fd-9b85-748798663048.png" rel="nofollow ugc">Screenshot from 2026-06-24 20-56-25.png</a></p>
]]></description><link>https://lcz.me/post/8151</link><guid isPermaLink="true">https://lcz.me/post/8151</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Wed, 24 Jun 2026 13:22:10 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Tue, 23 Jun 2026 17:11:53 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a> 通常都是讓ai agent代勞了,,比較快</p>
]]></description><link>https://lcz.me/post/8050</link><guid isPermaLink="true">https://lcz.me/post/8050</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Tue, 23 Jun 2026 17:11:53 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Tue, 23 Jun 2026 13:11:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: chia-an-yang">@<bdi>chia-an-yang</bdi></a> <a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: agi">@<bdi>agi</bdi></a> Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf ,请问你们这个模型是在哪下载的，现在hauhuacs的huggingface的repo里面 已经没有这个模型了。google也搜不到。</p>
]]></description><link>https://lcz.me/post/8022</link><guid isPermaLink="true">https://lcz.me/post/8022</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Tue, 23 Jun 2026 13:11:04 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 18:32:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: AGI">@<bdi>AGI</bdi></a> 感謝大老~驗證成功了 我更新文章了</p>
]]></description><link>https://lcz.me/post/7734</link><guid isPermaLink="true">https://lcz.me/post/7734</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sun, 21 Jun 2026 18:32:26 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 16:04:37 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> llama-server.service<br />
/home/myclaw/Downloads/llama.cpp/vulkan/bin/llama-server -m /media/myclaw/SYS/VM/llm/Qwen3.6-27B-Q4_K_M-mtp.gguf --alias qwen3.6-27b --spec-type draft-mtp --spec-draft-n-max 3 --cache-type-k q4_0 --cache-type-v q4_0 -np 1 -c 131072 --temp 0.7 --top-k 20 -ngl 99 --port 8080 --host 0.0.0.0 -fa 1 -ub 256 -fit off</p>
]]></description><link>https://lcz.me/post/7720</link><guid isPermaLink="true">https://lcz.me/post/7720</guid><dc:creator><![CDATA[Z Boss丶]]></dc:creator><pubDate>Sun, 21 Jun 2026 16:04:37 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 14:21:22 GMT]]></title><description><![CDATA[<p dir="auto">啊啊啊 看到就心痒痒又想折腾了</p>
]]></description><link>https://lcz.me/post/7702</link><guid isPermaLink="true">https://lcz.me/post/7702</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Sun, 21 Jun 2026 14:21:22 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 13:27:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a></p>
<pre><code class="language-bash">/usr/local/bin/llama-server \
    -m ./models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q5_K_P.gguf \
    --mmproj ./models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
    -c 131072 \
    --parallel 1 \
    -b 2048 \
    -ub 512 \
    -fa 1 \
    -ngl 99 \
    -t 16 \
    --spec-type draft-mtp \
    --cache-type-k q5_0 \
    --cache-type-v q4_1 \
    --no-mmap \
    --temp 0.4 \
    --spec-draft-n-max 3 \
    --top-p 0.95 \
    --top-k 20 \
    --host 0.0.0.0 \
    --port 8080 \
    --tools all
</code></pre>
<pre><code>root@ailab:~# llama-server --version
version: 236 (d5376cf5d)
built with GNU 13.3.0 for Linux x86_64
</code></pre>
<p dir="auto"><img src="https://upload.lcz.me/uploads/3fd47588-8e90-44ed-81f7-b37629a17b8b.jpeg" alt="856683c4-bd41-4a0a-8cdd-3785b06a5bec-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7694</link><guid isPermaLink="true">https://lcz.me/post/7694</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sun, 21 Jun 2026 13:27:30 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 12:40:27 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: AGI">@<bdi>AGI</bdi></a> 不知道耶 我怎麼測速度都起不來,,cc直接放棄,但我在win11+vulkan明顯可以 我的AI 可能累了,你有作業可以抄嗎?</p>
]]></description><link>https://lcz.me/post/7689</link><guid isPermaLink="true">https://lcz.me/post/7689</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sun, 21 Jun 2026 12:40:27 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 11:53:51 GMT]]></title><description><![CDATA[<p dir="auto">非常好，这样的帖子对小白很有帮助</p>
]]></description><link>https://lcz.me/post/7684</link><guid isPermaLink="true">https://lcz.me/post/7684</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 21 Jun 2026 11:53:51 GMT</pubDate></item><item><title><![CDATA[Reply to 看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan &amp; ubuntu +rocm) on Sun, 21 Jun 2026 11:21:42 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> <a href="/post/7680">说</a>:</p>
<p dir="auto">Vulkan 版在 Linux 上 MTP 幾乎無效（GitHub issue #22842）</p>
</blockquote>
<p dir="auto">有效果啊，接受率70%+</p>
]]></description><link>https://lcz.me/post/7681</link><guid isPermaLink="true">https://lcz.me/post/7681</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sun, 21 Jun 2026 11:21:42 GMT</pubDate></item></channel></rss>