<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理]]></title><description><![CDATA[<h1>7900 XTX + Qwen3.6-27B 測試完整整理</h1>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:center"></th>
<th style="text-align:center"></th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/db6a0a71-7117-4556-a30b-94249e681803.jpg" alt="IMG_8047" class=" img-fluid img-markdown" /></td>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/45493bd3-d8df-4805-b90d-301bb79ad8a1.jpg" alt="IMG_8048" class=" img-fluid img-markdown" /></td>
</tr>
<tr>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/6dfca2ca-ca8e-43da-a610-b9675bafbc60.jpg" alt="IMG_8049" class=" img-fluid img-markdown" /></td>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/45f752b7-85d9-4920-bb7e-41b4c193902a.jpg" alt="IMG_8050" class=" img-fluid img-markdown" /></td>
</tr>
<tr>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/e2092f09-1432-49f5-bbe6-517899b9783b.jpg" alt="IMG_8051" class=" img-fluid img-markdown" /></td>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/e3def01c-9435-4d45-93f8-523d090e1a13.jpg" alt="IMG_8052" class=" img-fluid img-markdown" /></td>
</tr>
<tr>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/fb9d3bb9-f6bf-4ae2-b325-f21a773c1bcc.jpg" alt="IMG_8053" class=" img-fluid img-markdown" /></td>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/d06a12c0-6fae-457d-9ead-874b8ce57a80.jpg" alt="IMG_8054" class=" img-fluid img-markdown" /></td>
</tr>
<tr>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/7bfb0fb1-9215-4feb-9294-acead61ddfa5.jpg" alt="IMG_8055" class=" img-fluid img-markdown" /></td>
<td style="text-align:center"><img src="https://upload.lcz.me/uploads/dde3e0fe-6874-4c54-9f37-9a6f6a13971f.jpg" alt="IMG_8056" class=" img-fluid img-markdown" /></td>
</tr>
</tbody>
</table>
<p dir="auto">整理日期：2026-05-29</p>
<p dir="auto">原本在win11原生llama.cpp+vulken,但想為雙卡7900XTX做準備,<br />
換了洋垃圾的主機板裝原生ubuntu24.04+rocm,以為會更好,結果折騰了3天,最終還是vulken更優,測所有參數,發文上來跟大家分享,尋找更優的腳本設計,以下是折騰後請AI整理的資料,部分有參考David Zhang大神的文章</p>
<p dir="auto">這份整理的是目前在 <strong>Ubuntu 24.04 + RX 7900 XTX 24GB</strong> 上，針對 <strong>llama.cpp</strong> 做過的 <strong>ROCm / Vulkan / MTP</strong> 實測彙整。<br />
目標是找出最適合 Hermes / 長上下文 / 單卡可用的路線。</p>
<hr />
<h2>一、測試環境</h2>
<ul>
<li>主機：<code>jaran-Z10PE-D16-WS</code></li>
<li>CPU：Intel Xeon E5-2678 v3 @ 2.50GHz（雙路）</li>
<li>RAM：64GB</li>
<li>GPU：AMD Radeon RX 7900 XTX 24GB（gfx1100 / RADV NAVI31）</li>
<li>OS：Ubuntu 24.04</li>
<li>目標：Qwen3.6-27B，單卡先跑通，並評估 Hermes 實戰可用性</li>
</ul>
<hr />
<h2>二、模型清單</h2>
<p dir="auto">本次主要測過的模型：</p>
<ul>
<li><code>Qwen3.6-27B-MTP-IQ4_XS.gguf</code></li>
<li><code>Qwen3.6-27B-UD-Q4_K_XL.gguf</code></li>
<li><code>Qwen3.6-27B-Q4_K_M-mtp.gguf</code></li>
</ul>
<p dir="auto">補充說明：</p>
<ul>
<li>測試過程中，<code>Qwen3.6-27B-Q4_K_M-mtp.gguf</code> 這個檔名曾被做過 alias / symlink 對照，實際內容在某些階段指向 <code>IQ4_XS</code></li>
<li>因此下面的結果會以「實際跑到的模型 / 腳本」為準</li>
</ul>
<hr />
<h2>三、ROCm 測試</h2>
<h3>1. clean ROCm + turboquant</h3>
<p dir="auto">模型：<code>Qwen3.6-27B-UD-Q4_K_XL.gguf</code></p>
<ul>
<li><code>pp512</code>: <code>747.91 t/s</code></li>
<li><code>tg128</code>: <code>29.36 t/s</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>prefill 很強</li>
<li>decode 明顯慢</li>
<li>對 Hermes 日常回應不理想</li>
</ul>
<h3>2. clean ROCm + llama-server + MTP</h3>
<p dir="auto">模型：<code>Qwen3.6-27B-Q4_K_M-mtp.gguf</code></p>
<ul>
<li>裸 decode / <code>llama-bench</code>: <code>29.27 t/s</code></li>
<li><code>llama-server + MTP</code>: 約 <code>36-37 t/s</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>比 turboquant 的 decode 好一些</li>
<li>但仍未到 50+</li>
</ul>
<h3>3. ROCm + MTP + IQ4_XS</h3>
<p dir="auto">模型：<code>Qwen3.6-27B-MTP-IQ4_XS.gguf</code></p>
<ul>
<li>64K 真實測試：<code>43.845 t/s</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>比舊版 ROCm MTP 更好</li>
<li>但 64K 下仍未穩定達到 50+</li>
</ul>
<hr />
<h2>四、Vulkan 測試</h2>
<h3>共通 Vulkan build</h3>
<ul>
<li>Ubuntu 原生 <code>llama.cpp</code></li>
<li>build 目錄：<code>~/src/llama.cpp.clean/build-vulkan</code></li>
<li>server 路徑：<code>/home/jaran/src/llama.cpp.clean/build-vulkan/bin/llama-server</code></li>
</ul>
<h3>共通參數基準</h3>
<p dir="auto">多數測試共通的參數大致如下：</p>
<ul>
<li><code>-ngl 99</code></li>
<li><code>-fa on</code> 或 <code>-fa 1</code></li>
<li><code>--cache-type-k q4_0</code></li>
<li><code>--cache-type-v q4_0</code></li>
<li><code>--spec-type draft-mtp</code></li>
<li><code>-np 1</code></li>
<li><code>--temp 0.7</code> 或 <code>0.6</code></li>
<li><code>--top-k 20</code></li>
<li><code>--host 0.0.0.0</code></li>
<li><code>--port 8080</code></li>
</ul>
<hr />
<h2>五、Vulkan + 64K 測試</h2>
<h3>1. <code>Qwen3.6-27B-MTP-IQ4_XS.gguf</code></h3>
<p dir="auto">共通條件：</p>
<ul>
<li><code>-c 65536</code></li>
<li><code>--spec-draft-n-max 2</code></li>
<li><code>-b 2048</code></li>
<li><code>-ub 512</code></li>
<li><code>-t 12</code></li>
</ul>
<p dir="auto">結果：</p>
<ul>
<li><code>48.03 / 46.99 / 46.52</code></li>
<li><code>48.32 / 47.67 / 46.54</code></li>
<li><code>49.52 / 45.93 / 42.59</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>穩定值大約在 <code>46.5 - 48.0 t/s</code></li>
<li>平均大約落在 <code>47 t/s</code> 左右</li>
<li>偶爾可以摸到接近 <code>50</code></li>
<li>但整體未穩定破 50</li>
</ul>
<h3>2. <code>Qwen3.6-27B-UD-Q4_K_XL.gguf</code></h3>
<p dir="auto">結果：</p>
<ul>
<li><code>44.60 / 49.25 / 44.60</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>平均約 <code>46.15 t/s</code></li>
<li>有峰值，但波動比 <code>IQ4_XS</code> 大</li>
</ul>
<h3>3. <code>Qwen3.6-27B-Q4_K_M-mtp.gguf</code></h3>
<p dir="auto">結果：</p>
<ul>
<li><code>46.93 / 41.54 / 49.70</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>平均約 <code>46.06 t/s</code></li>
<li>也能接近 50，但穩定性不如 <code>IQ4_XS</code></li>
</ul>
<hr />
<h2>六、Vulkan + 128K 測試</h2>
<h3>1. 早期 128K（偏保守參數）</h3>
<p dir="auto">條件概念：</p>
<ul>
<li><code>-c 131072</code></li>
<li><code>--spec-draft-n-max 2</code></li>
<li><code>-ub 256</code></li>
</ul>
<p dir="auto">結果：</p>
<ul>
<li><code>44.76</code></li>
<li>VRAM Used: <code>20,909,498,368 B</code></li>
<li>VRAM Total: <code>25,753,026,560 B</code></li>
</ul>
<p dir="auto">後續同組測到：</p>
<ul>
<li><code>49.40</code></li>
<li><code>44.57</code></li>
<li><code>46.11</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>平均約 <code>46.69 t/s</code></li>
<li>可跑，但不是最優</li>
</ul>
<h3>2. 對齊大神的David Zhang文章思路的 128K</h3>
<p dir="auto">條件：</p>
<ul>
<li><code>--spec-type draft-mtp</code></li>
<li><code>--spec-draft-n-max 3</code></li>
<li><code>-c 131072</code></li>
<li><code>-ub 256</code></li>
<li><code>-fa 1</code></li>
<li><code>-np 1</code></li>
<li><code>--temp 0.7</code></li>
<li><code>--top-k 20</code></li>
</ul>
<p dir="auto">結果：</p>
<ul>
<li><code>52.62</code></li>
<li><code>53.32</code></li>
<li><code>51.47</code></li>
<li><code>53.95</code></li>
</ul>
<p dir="auto">平均：</p>
<ul>
<li>約 <code>52.84 t/s</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>這是目前很好的 128K 版本</li>
<li>已穩定進入 50+</li>
<li>比前面的 64K 保守版明顯更快</li>
</ul>
<h3>3. 128K 的結論</h3>
<ul>
<li>128K 是目前的甜蜜點之一</li>
<li>比 64K 的保守版更有機會穩定 50+</li>
<li>也比 256K 更容易維持穩定</li>
</ul>
<hr />
<h2>七、Vulkan + 256K 測試</h2>
<h3>對齊他文章思路的 256K</h3>
<p dir="auto">條件：</p>
<ul>
<li><code>--spec-type draft-mtp</code></li>
<li><code>--spec-draft-n-max 3</code></li>
<li><code>-c 262144</code></li>
<li><code>-ub 256</code></li>
<li><code>-fa 1</code></li>
<li><code>-np 1</code></li>
<li><code>--temp 0.7</code></li>
<li><code>--top-k 20</code></li>
</ul>
<p dir="auto">結果：</p>
<ul>
<li><code>53.06</code></li>
<li><code>55.14</code></li>
<li><code>49.07</code></li>
</ul>
<p dir="auto">平均：</p>
<ul>
<li>約 <code>52.42 t/s</code></li>
</ul>
<p dir="auto">判讀：</p>
<ul>
<li>256K 可以跑，而且峰值不差</li>
<li>但平均略低於 128K</li>
<li>波動也更大</li>
</ul>
<hr />
<h2>八、對照結論</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>路線</th>
<th>模型</th>
<th style="text-align:right">代表結果</th>
<th>判讀</th>
</tr>
</thead>
<tbody>
<tr>
<td>ROCm</td>
<td><code>UD-Q4_K_XL</code></td>
<td style="text-align:right"><code>pp512 747.91 / tg128 29.36</code></td>
<td>prefill 強，decode 慢</td>
</tr>
<tr>
<td>ROCm</td>
<td><code>Q4_K_M-mtp</code></td>
<td style="text-align:right"><code>29.27 / 36-37 t/s</code></td>
<td>有改善，但仍未穩定 50+</td>
</tr>
<tr>
<td>ROCm</td>
<td><code>MTP-IQ4_XS</code></td>
<td style="text-align:right"><code>43.845 t/s @ 64K</code></td>
<td>比舊版好，但仍未達標</td>
</tr>
<tr>
<td>Vulkan</td>
<td><code>MTP-IQ4_XS</code></td>
<td style="text-align:right"><code>46-48 t/s</code> 穩定</td>
<td>64K 最穩的基準</td>
</tr>
<tr>
<td>Vulkan</td>
<td><code>UD-Q4_K_XL</code></td>
<td style="text-align:right">平均 <code>46.15 t/s</code></td>
<td>有峰值，但較抖</td>
</tr>
<tr>
<td>Vulkan</td>
<td><code>Q4_K_M-mtp</code></td>
<td style="text-align:right">平均 <code>46.06 t/s</code></td>
<td>可用，但不如 IQ4_XS 穩</td>
</tr>
<tr>
<td>Vulkan</td>
<td><code>128K draft-mtp n=3</code></td>
<td style="text-align:right">平均 <code>52.84 t/s</code></td>
<td>目前最佳平衡點</td>
</tr>
<tr>
<td>Vulkan</td>
<td><code>256K draft-mtp n=3</code></td>
<td style="text-align:right">平均 <code>52.42 t/s</code></td>
<td>可跑，但不如 128K 穩</td>
</tr>
</tbody>
</table>
<hr />
<h2>九、最終判斷</h2>
<h3>1. ROCm 路線</h3>
<ul>
<li>適合研究與調校</li>
<li>prefill 很強</li>
<li>decode 對 Hermes 實戰來說偏慢</li>
<li>不如 Vulkan 穩</li>
</ul>
<h3>2. Vulkan 路線</h3>
<ul>
<li>是目前單卡最實用的方向</li>
<li>尤其是 <code>draft-mtp</code> + <code>Qwen3.6-27B-MTP-IQ4_XS</code></li>
<li>在 64K/128K/256K 都能跑，但表現以 128K 最平衡</li>
</ul>
<h3>3. 最適合 Hermes 的結論</h3>
<ul>
<li><strong>如果重視穩定與實戰：128K 最推薦</strong></li>
<li><strong>如果重視簡單與保守：64K 也可用</strong></li>
<li><strong>如果重視極限與展示：256K 可以，但不如 128K 穩</strong></li>
</ul>
]]></description><link>https://lcz.me/topic/353/7900-xtx-qwen3.6-27b-ubuntu-rocm-vulkan-mtp-64-128-256k-全部實測整理</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 04:50:31 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/353.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 29 May 2026 11:58:18 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 16:07:55 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> <a href="/post/4295">说</a>:</p>
<p dir="auto">问题 1（近端检索）<br />
文档中张三修正后的产量模型，第1和第2时间单位的产量分别是多少？</p>
<p dir="auto">问题 2（中段检索）<br />
2024年3月20日的实验实际连续运行了几个时间单位？</p>
<p dir="auto">问题 3（干扰排除）<br />
赵六提到的标准斐波那契数列起始两项是多少？这与张三的模型有何不同？模型是否会被此干扰？</p>
<p dir="auto">问题 4（核心推理，必做）<br />
根据所有相关记录，计算2024年3月20日的单日总产量，并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。</p>
<p dir="auto">问题 5（进阶反事实，可选）<br />
如果恒温箱没有发生故障，实验继续运行到第6个时间单位，总产量会是多少？是否会触发安全程序？</p>
</blockquote>
<p dir="auto">试了一下， minimax m2.7 第五题错了。 deepseek v4 flash全对</p>
]]></description><link>https://lcz.me/post/4387</link><guid isPermaLink="true">https://lcz.me/post/4387</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sat, 30 May 2026 16:07:55 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 15:01:52 GMT]]></title><description><![CDATA[<p dir="auto">大佬牛啊，直接抄作业，使用了Vulkan方案，Ubuntu26.04  AMD R9700 显卡，显存占用19.38GB<br />
Prefill阶段4万token不到一分钟就吃掉了</p>
<p dir="auto">6.11.396.657 I slot print_timing: id  0 | task 1906 | prompt processing, n_tokens =  39709, progress = 1.00, t =  56.83 s / 698.78 tokens per second<br />
6.12.377.585 I slot create_check: id  0 | task 1906 | created context checkpoint 1 of 32 (pos_min = 39708, pos_max = 39708, n_tokens = 39709, size = 149.626 MiB)<br />
6.12.391.275 I slot print_timing: id  0 | task 1906 | prompt processing, n_tokens =  39719, progress = 1.00, t =  57.82 s / 686.93 tokens per second</p>
<p dir="auto">跑的Hermes，吐词速度从 9t/s提升到了16t/s</p>
<p dir="auto">8.31.834.959 I slot print_timing: id  0 | task 2640 | n_decoded =   1379, tg =  16.30 t/s<br />
8.34.857.373 I slot print_timing: id  0 | task 2640 | n_decoded =   1428, tg =  16.30 t/s<br />
8.37.884.404 I slot print_timing: id  0 | task 2640 | n_decoded =   1477, tg =  16.30 t/s<br />
8.40.901.225 I slot print_timing: id  0 | task 2640 | n_decoded =   1526, tg =  16.29 t/s<br />
8.43.924.988 I slot print_timing: id  0 | task 2640 | n_decoded =   1575, tg =  16.29 t/s<br />
8.46.954.400 I slot print_timing: id  0 | task 2640 | n_decoded =   1624, tg =  16.29 t/s</p>
]]></description><link>https://lcz.me/post/4382</link><guid isPermaLink="true">https://lcz.me/post/4382</guid><dc:creator><![CDATA[xiaopbro]]></dc:creator><pubDate>Sat, 30 May 2026 15:01:52 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 06:32:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> 让他编程啊，做复杂点的，二三十个代码文件，光代码纯文本都50多K的那种，我这边随便解决几个问题就能跑到100K，我设置了99%才触发压缩，所以很容易知道是真长还是假长</p>
]]></description><link>https://lcz.me/post/4323</link><guid isPermaLink="true">https://lcz.me/post/4323</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Sat, 30 May 2026 06:32:04 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 02:35:56 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 我生成一套题目给你<br />
这是一个<strong>针毡检索 + 跨文档逻辑推理</strong>的复合测试，专门用来验证 128K 上下文是"真长"还是"假长"，同时测智力。</p>
<h3>使用方法</h3>
<ol>
<li>保存下面的脚本为 <code>gen_test.py</code>，运行生成测试文本（约 10 万汉字，对应约 12-13 万 tokens）：</li>
</ol>
<pre><code class="language-python">import random

FILLERS = [
    "唐代长安城采用中轴对称布局，东西两市商业繁荣，人口峰值超过百万。",
    "量子纠缠现象表明，两个粒子无论相距多远，其量子状态都能即时相互关联。",
    "DNA双螺旋结构的发现标志着分子生物学时代开端，为基因工程奠定基础。",
    "丝绸之路不仅是古代贸易通道，更是东西方文化交流的重要纽带。",
    "深度学习通过多层神经网络模拟人脑信息处理方式，在图像识别领域取得突破。",
    "工业革命始于18世纪英国，蒸汽机改良和工厂制度建立彻底改变了生产方式。",
    "板块构造学说解释了地震与火山形成的根本原因，岩石圈被划分为多个巨大板块。",
    "免疫系统T细胞能识别并攻击被病毒感染的细胞，是适应性免疫应答的核心。",
    "宋代活字印刷术的发明大幅降低了书籍制作成本，推动了知识的大众化传播。",
    "相对论揭示了时间、空间与引力之间的深层联系，彻底改变了经典物理学框架。",
]

def make_filler(n):
    text = ""
    while len(text) &lt; n:
        text += random.choice(FILLERS) + "\n\n"
    return text[:n]

# 三个真实线索分散在不同深度
NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型：第1时间单位产量为2，第2时间单位为3，从第3个开始，每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
NEEDLE_B = "【设备异常-3月20日】操作员李四记录：恒温箱温度超出临界值T达5个单位，当日实验连续运行5个时间单位。"
NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50，必须立即启动废料处理程序。这是不可逾越的安全红线。"

# 干扰项（测试模型是否会混淆）
DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...，在自然界中广泛存在，如向日葵花盘排列。"

# 进阶版可选线索（90%位置，测反事实推理）
NEEDLE_D = "【维修记录-3月21日】工程师确认：恒温箱在第5个时间单位结束后发生故障，若未故障可继续运行第6个单位。"

TARGET = 100000  # 约10万汉字

def main():
    part = TARGET // 5
    doc  = make_filler(part) + NEEDLE_A + "\n\n"
    doc += make_filler(part) + NEEDLE_B + "\n\n"
    doc += make_filler(part) + DISTRACTOR + "\n\n"
    doc += make_filler(part) + NEEDLE_C + "\n\n"
    doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
    doc += make_filler(part)
    
    with open("128k_test.txt", "w", encoding="utf-8") as f:
        f.write(doc)
    print(f"已生成测试文件，总字符数: {len(doc)}")

if __name__ == "__main__":
    main()
</code></pre>
<ol start="2">
<li>把生成的 <code>128k_test.txt</code> 喂给模型，然后提问：</li>
</ol>
<hr />
<h3>测试题目</h3>
<p dir="auto"><strong>问题 1（近端检索）</strong><br />
文档中张三修正后的产量模型，第1和第2时间单位的产量分别是多少？</p>
<p dir="auto"><strong>问题 2（中段检索）</strong><br />
2024年3月20日的实验实际连续运行了几个时间单位？</p>
<p dir="auto"><strong>问题 3（干扰排除）</strong><br />
赵六提到的标准斐波那契数列起始两项是多少？这与张三的模型有何不同？模型是否会被此干扰？</p>
<p dir="auto"><strong>问题 4（核心推理，必做）</strong><br />
根据所有相关记录，计算2024年3月20日的单日总产量，并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。</p>
<p dir="auto"><strong>问题 5（进阶反事实，可选）</strong><br />
如果恒温箱没有发生故障，实验继续运行到第6个时间单位，总产量会是多少？是否会触发安全程序？</p>
<hr />
<h3>标准答案与评分</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>题目</th>
<th>标准答案</th>
<th>评分要点</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>第1单位=2，第2单位=3</td>
<td>答错 = 128K 检索能力不及格，或模型根本没读到 20% 深度</td>
</tr>
<tr>
<td>2</td>
<td>5 个时间单位</td>
<td>答错 = 50% 深度丢失</td>
</tr>
<tr>
<td>3</td>
<td>赵六：1,1；张三：2,3 起始</td>
<td>若模型用 1,1 计算 = <strong>被干扰项带偏</strong>，智力/注意力缺陷</td>
</tr>
<tr>
<td>4</td>
<td>序列：2,3,5,8,13；总和 <strong>31</strong>；31&lt;50，<strong>不需要</strong>启动</td>
<td>计算错或找不到线索 = 推理链断裂</td>
</tr>
<tr>
<td>5</td>
<td>第6单位=21；总和 <strong>52</strong>；52&gt;50，<strong>需要</strong>启动</td>
<td>反事实推理，答对说明真正理解而非死记硬背</td>
</tr>
</tbody>
</table>
<h3>llama.cpp 运行注意</h3>
<p dir="auto">启动时必须显式指定上下文长度，否则默认只有 4K/8K：</p>
<pre><code class="language-bash">llama-server.exe ^
  -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
  -c 131072 ^
  --host 127.0.0.1 --port 8080
</code></pre>
<ul>
<li><code>-c 131072</code> 是开启 128K 的关键。</li>
<li>27B Dense + 128K KV Cache 内存消耗很大，如果爆显存就调小 <code>-ngl</code>（减少 GPU 层数），靠内存 offload 顶住。</li>
</ul>
<p dir="auto"><strong>预期结果：</strong></p>
<ul>
<li>如果 27B 能在 10 秒内正确回答 1-4 题，说明 128K 上下文和基础智力都达标。</li>
<li>如果 1-3 对但 4 错，说明"能记住但算不对"，智力有瓶颈。</li>
<li>如果 3 被干扰项带偏，说明注意力机制或指令跟随有缺陷。</li>
</ul>
]]></description><link>https://lcz.me/post/4295</link><guid isPermaLink="true">https://lcz.me/post/4295</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 30 May 2026 02:35:56 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 02:08:47 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/johnnybegood" aria-label="Profile: johnnybegood">@<bdi>johnnybegood</bdi></a> 問AI也是這樣說沒錯,但我需求查幣價K線分析,比較需要速度型的</p>
]]></description><link>https://lcz.me/post/4293</link><guid isPermaLink="true">https://lcz.me/post/4293</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sat, 30 May 2026 02:08:47 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Sat, 30 May 2026 02:06:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> 你有提示詞嗎?因為我自己需求是用來查幣價分析,skill慢慢迭代之後,判斷的還不錯,我在截圖上傳</p>
]]></description><link>https://lcz.me/post/4291</link><guid isPermaLink="true">https://lcz.me/post/4291</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sat, 30 May 2026 02:06:54 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 22:03:15 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 非常详尽的测试，7900 XTX 上 Vulkan 比 ROCm 表现出色这个结论对坛友很有参考价值。</p>
<p dir="auto">关于你说到的"尋找更優的腳本設計"，几点优化建议：</p>
<ol>
<li>
<p dir="auto"><strong>llama.cpp 启动参数优化</strong>（针对 Vulkan + 7900 XTX）：</p>
<ul>
<li>加 <code>--no-mmap</code>：RDNA3 的 Vulkan 驱动下 mmap 有时反而降速，实测能提 3-5%</li>
<li><code>--tensor-split 0</code>（单卡时）强制 GPU 优先，避免 CPU fallback</li>
<li>如果跑 32K+ 上下文，试试 <code>--cache-type-k q8_0</code>，比默认 f16 省显存对速度影响很小</li>
</ul>
</li>
<li>
<p dir="auto"><strong>双卡准备</strong>：<br />
你说的双 7900 XTX，llama.cpp 目前 Vulkan 后端对多卡支持还在完善中。建议优先用 ROCm 后端来跑双卡（<code>--tensor-split 12,12</code>），Vulkan 双卡目前效率不如 ROCm。不过单卡 Vulkan 已经是很好的起点。</p>
</li>
<li>
<p dir="auto"><strong>量化选择</strong>：<br />
7900 XTX 24G 跑 27B，Q4_K_M 是甜点——速度和推理质量平衡最好。你的 Q6K 数据适合需要更高精度的场景。</p>
</li>
</ol>
<p dir="auto">期待你的双卡测试结果！</p>
]]></description><link>https://lcz.me/post/4276</link><guid isPermaLink="true">https://lcz.me/post/4276</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 29 May 2026 22:03:15 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 18:02:36 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: AGI">@<bdi>AGI</bdi></a> 换机箱 买个延长线（这个不要省钱，选好的）pci-e</p>
]]></description><link>https://lcz.me/post/4260</link><guid isPermaLink="true">https://lcz.me/post/4260</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Fri, 29 May 2026 18:02:36 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 16:51:55 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/agi" aria-label="Profile: AGI">@<bdi>AGI</bdi></a> 换个机箱吧，200就买到了，外置很麻烦，也没有内置稳定方便。</p>
]]></description><link>https://lcz.me/post/4257</link><guid isPermaLink="true">https://lcz.me/post/4257</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 29 May 2026 16:51:55 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 16:32:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 能做个答题测试吗？这个卡是很多Hermes用户的选择。你的27B 很有参考价值。毕竟 智力属性是实践的基础。128K在平时工作基本够用了。可以做很多事。希望能得到：针毡检索 + 跨文档逻辑推理的复合测试，专门用来验证 128K 上下文是"真长"还是"假长"，同时测智力。的回复。谢谢</p>
]]></description><link>https://lcz.me/post/4255</link><guid isPermaLink="true">https://lcz.me/post/4255</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Fri, 29 May 2026 16:32:28 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 16:02:53 GMT]]></title><description><![CDATA[<p dir="auto">IQ4_XS 编程还是差点意思</p>
]]></description><link>https://lcz.me/post/4244</link><guid isPermaLink="true">https://lcz.me/post/4244</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Fri, 29 May 2026 16:02:53 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 15:27:46 GMT]]></title><description><![CDATA[<p dir="auto">测试的非常全面，非常宝贵的数据。置顶三天。</p>
]]></description><link>https://lcz.me/post/4234</link><guid isPermaLink="true">https://lcz.me/post/4234</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 29 May 2026 15:27:46 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX + Qwen3.6-27B：Ubuntu + ROCm &#x2F; Vulkan &#x2F; MTP 64&#x2F;128&#x2F;256K 全部實測整理 on Fri, 29 May 2026 14:43:12 GMT]]></title><description><![CDATA[<p dir="auto">感谢测试，论坛里的组合几乎都测试了！我的卡6.1才能到，就按照你这个帖子来部署！我也打算部署双卡，可惜机箱放不下了……，外置不知道怎样</p>
]]></description><link>https://lcz.me/post/4226</link><guid isPermaLink="true">https://lcz.me/post/4226</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Fri, 29 May 2026 14:43:12 GMT</pubDate></item></channel></rss>