<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s]]></title><description><![CDATA[<p dir="auto">注意：<strong>以下方法，双 N 卡的，最弱超过 3060 12GB 的，统统都可以尝试。</strong></p>
<p dir="auto">虽然入手了 7900 xtx，但实测下来感觉算力发挥很不稳定。开 MTP 后 decode 确实可以达到 40-60 t/s，但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。</p>
<p dir="auto">一直手痒想试试极限丐版 24GB 双 3060，正好这几天以合理的价格淘到了第二张。话不多说，拆掉 7900 xtx，上机实测。</p>
<h2>测试配置</h2>
<ul>
<li>测试平台：i7 4770k + 技嘉 GA-Z87MX-D3H
<ul>
<li>相当古董的平台了，用了十多年。值得注意的是它支持 SLI，两条主 PCIE 插槽同时使用时等效于两条 PCIE 3.0 x8 插槽。较新的主板似乎很少有这种分配，但不少会有一条满速 PCIE 5.0 x16 加一条 PCIE 4.0 x4。总所周知 PCIE 4.0 x4 等效于 PCIE 3.0 x8。所以这个平台跑双卡的 PCIE 条件和较新的主板其实是相同的。</li>
<li>显示器插主板用集显</li>
</ul>
</li>
<li>系统：Kubuntu 24.04</li>
<li>CUDA: 13.2</li>
<li>模型：
<ul>
<li>unsloth/Qwen3.6-27B-MTP-GGUF</li>
<li>unsloth/Qwen3.6-27B-GGUF</li>
</ul>
</li>
<li>量化：Qwen3.6-27B-Q4_K_S.gguf</li>
<li>软件：llama.cpp 5/25/2026 master 自行编译 CUDA 版本，官方没有预编译Linux CUDA版本下载
<ul>
<li>前置安装 <code>sudo apt install nvidia-cuda-toolkit</code></li>
</ul>
</li>
<li>配置（详细配置见帖子最后）：
<ul>
<li>tensor parallel <code>-sm tensor -ts 1,1</code></li>
<li><code>-sm tensor</code> 和 <code>-ctk</code> <code>-ctv</code> 没法同时开，也就是无法量化 kv cache，只能开到 64k 上下文。我一般需要开 160k 上下文，这就有点难受了（<strong>更新</strong>：打上补丁可以开到 128k 上下文）</li>
<li><code>--spec-type draft-mtp --spec-draft-n-max 1</code> 这个配置比较稳定，<code>--spec-draft-n-max 2</code> 很容易跑一段时间后因为瞬时显存消耗过大 OOM。</li>
</ul>
</li>
</ul>
<h2>实测记录</h2>
<pre><code>2.16.262.271 I slot print_timing: id  0 | task 701 | prompt eval time =    3056.70 ms /  1394 tokens (    2.19 ms per token,   456.05 tokens per second)
2.16.262.276 I slot print_timing: id  0 | task 701 |        eval time =   22538.95 ms /   975 tokens (   23.12 ms per token,    43.26 tokens per second)
2.16.262.277 I slot print_timing: id  0 | task 701 |       total time =   25595.65 ms /  2369 tokens
2.16.262.291 I slot print_timing: id  0 | task 701 |    graphs reused =       1016
2.16.262.292 I slot print_timing: id  0 | task 701 | draft acceptance = 0.77618 (  593 accepted /   764 generated)
2.16.262.310 I statistics        draft-mtp: #calls(b,g,a) =   10   1038   1038, #gen drafts =   1038, #acc drafts =   959, #gen tokens =   2076, #acc tokens =  1792, dur(b,g,a) = 0.018, 8380.839, 3.772 ms
2.16.263.267 I slot      release: id  0 | task 701 | stop processing: n_tokens = 12343, truncated = 0
</code></pre>
<p dir="auto">可以看到，在 12k 的实际上下文长度下，pp 456.05 t/s，tg 43.26 t/s。初始速度甚至高达 pp 600+ t/s，tg 50 t/s。这个速度大大超出了我的预料。虽然没有 7900 xtx 的最大速度快，但速度极其稳定，GPU 占用率长时间稳定 100%，不得不说还是 CUDA 成熟。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/3fb7f136-ac21-4a32-817b-df83d49f3c5f.jpeg" alt="988374cd-dde5-4520-8dc6-c9c1f18d5356-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">另外，关闭 MTP 后 context 可以开到 96k，pp 速度更快，tg 速度下降到 31 t/s，也相当不错了。</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th></th>
<th>Context Window</th>
<th>Prefill (pp)</th>
<th>Generation (tg)</th>
</tr>
</thead>
<tbody>
<tr>
<td>MTP 初始峰值</td>
<td>64k</td>
<td>620 t/s</td>
<td>50 t/s</td>
</tr>
<tr>
<td>MTP 32k</td>
<td>64k</td>
<td>482 t/s</td>
<td>36.36 t/s</td>
</tr>
<tr>
<td>关闭 MTP 初始峰值</td>
<td>96k</td>
<td>620 t/s</td>
<td>31 t/s</td>
</tr>
<tr>
<td>关闭 MTP 20k</td>
<td>96k</td>
<td>605 t/s</td>
<td>29.10 t/s</td>
</tr>
<tr>
<td>关闭 MTP 50k</td>
<td>96k</td>
<td>438 t/s</td>
<td>26.59 t/s</td>
</tr>
</tbody>
</table>
<h2>总结</h2>
<p dir="auto"><strong>优点</strong></p>
<ul>
<li>性价比极高，<strong>目测闲鱼 3000 以内能够搞定</strong>。</li>
<li>CUDA 生态完善，GPU 占用率长时间稳定 100%，编译完成后不用折腾，省心。</li>
<li>3060 身材苗条，有单、双风扇短版，大部分 ATX 和 mATX 主板、机箱都无压力。</li>
</ul>
<p dir="auto"><strong>缺点</strong></p>
<ul>
<li>SPLIT_MODE_TENSOR 暂时无法使用 kv cache 量化，导致 24GB 仍稍显不足。但这肯定不是小众需求，简单 q8 也能翻倍到 128k / 192k，未来可期。一旦 kv 量化解决，我就可以把 7900 xtx 淘汰了。</li>
</ul>
<p dir="auto"><strong>推论</strong></p>
<ul>
<li>双 16GB、速度稍快的卡，比如 4060Ti、5060Ti，虽然性价比会下降，但效果只会更好。还是那句话，CUDA 发挥稳定，省心。同样是 32GB，比跛脚 AI PRO R9700 肯定快得多，价格还稍低。</li>
<li>更新：外网有人根据本帖配置用双 5060Ti 跑出 <strong>pp 700 t/s, tg 65 t/s</strong>。</li>
</ul>
<p dir="auto"><strong>其它</strong></p>
<ul>
<li>vllm 也有简单尝试，但 vllm 可能是对 VRAM 紧张的场景优化不佳，怎么跑都 OOM。且 vllm 启动太慢了，调试麻烦，不折腾了。</li>
</ul>
<h2>附录</h2>
<p dir="auto">详细配置</p>
<pre><code>    --no-mmproj-offload \
    -dev CUDA0,CUDA1  -sm tensor -ts 1,1 \
    --fit off \
    --host 0.0.0.0 --port "$PORT" \
    -t 0 -ngl 99 -np 1 \
    --kv-unified --flash-attn on --ctx-size 64000 \ # 或 96000
    --spec-type draft-mtp --spec-draft-n-max 1 \ # 或去掉
    -rea on \
    --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0
</code></pre>
<p dir="auto"><img src="https://upload.lcz.me/uploads/07ac58a9-79fb-4160-b6ef-2d252aaea3fc.jpeg" alt="c89f5337-e172-4394-82f9-621b24bc1131-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">虽然入手了 7900 xtx，但实测下来感觉算力发挥很不稳定。开 MTP 后 decode 确实可以达到 40-60 t/s，但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。</p>
<p dir="auto">一直手痒想试试极限丐版 24GB 双 3060，正好这几天以合理的价格淘到了第二张。话不多说，拆掉 7900 xtx，上机实测。</p>
<h2>测试配置</h2>
<ul>
<li>测试平台：i7 4770k + 技嘉 GA-Z87MX-D3H
<ul>
<li>相当古董的平台了，用了十多年。值得注意的是它支持 SLI，两条主 PCIE 插槽同时使用时等效于两条 PCIE 3.0 x8 插槽。较新的主板似乎很少有这种分配，但不少会有一条满速 PCIE 5.0 x16 加一条 PCIE 4.0 x4。总所周知 PCIE 4.0 x4 等效于 PCIE 3.0 x8。所以这个平台跑双卡的 PCIE 条件和较新的主板其实是相同的。</li>
<li>显示器插主板用集显</li>
</ul>
</li>
<li>系统：Kubuntu 24.04</li>
<li>CUDA: 13.2</li>
<li>模型：
<ul>
<li>unsloth/Qwen3.6-27B-MTP-GGUF</li>
<li>unsloth/Qwen3.6-27B-GGUF</li>
</ul>
</li>
<li>量化：Qwen3.6-27B-Q4_K_S.gguf</li>
<li>软件：llama.cpp 5/25/2026 master 自行编译 CUDA 版本，官方没有预编译Linux CUDA版本下载
<ul>
<li>前置安装 <code>sudo apt install nvidia-cuda-toolkit</code></li>
</ul>
</li>
<li>配置（详细配置见帖子最后）：
<ul>
<li>tensor parallel <code>-sm tensor -ts 1,1</code></li>
<li><code>-sm tensor</code> 和 <code>-ctk</code> <code>-ctv</code> 没法同时开，也就是无法量化 kv cache，只能开到 64k 上下文。我一般需要开 160k 上下文，这就有点难受了</li>
<li><code>--spec-type draft-mtp --spec-draft-n-max 1</code> 这个配置比较稳定，<code>--spec-draft-n-max 2</code> 很容易跑一段时间后因为瞬时显存消耗过大 OOM。</li>
</ul>
</li>
</ul>
<h2>实测记录</h2>
<pre><code>2.16.262.271 I slot print_timing: id  0 | task 701 | prompt eval time =    3056.70 ms /  1394 tokens (    2.19 ms per token,   456.05 tokens per second)
2.16.262.276 I slot print_timing: id  0 | task 701 |        eval time =   22538.95 ms /   975 tokens (   23.12 ms per token,    43.26 tokens per second)
2.16.262.277 I slot print_timing: id  0 | task 701 |       total time =   25595.65 ms /  2369 tokens
2.16.262.291 I slot print_timing: id  0 | task 701 |    graphs reused =       1016
2.16.262.292 I slot print_timing: id  0 | task 701 | draft acceptance = 0.77618 (  593 accepted /   764 generated)
2.16.262.310 I statistics        draft-mtp: #calls(b,g,a) =   10   1038   1038, #gen drafts =   1038, #acc drafts =   959, #gen tokens =   2076, #acc tokens =  1792, dur(b,g,a) = 0.018, 8380.839, 3.772 ms
2.16.263.267 I slot      release: id  0 | task 701 | stop processing: n_tokens = 12343, truncated = 0
</code></pre>
<p dir="auto">可以看到，在 12k 的实际上下文长度下，pp 456.05 t/s，tg 43.26 t/s。初始速度甚至高达 pp 600+ t/s，tg 50 t/s。这个速度大大超出了我的预料。虽然没有 7900 xtx 的最大速度快，但速度极其稳定，GPU 占用率长时间稳定 100%，不得不说还是 CUDA 成熟。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/3fb7f136-ac21-4a32-817b-df83d49f3c5f.jpeg" alt="988374cd-dde5-4520-8dc6-c9c1f18d5356-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">另外，关闭 MTP 后 context 可以开到 96k，pp 速度更快，tg 速度下降到 31 t/s，也相当不错了。</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th></th>
<th>Context Window</th>
<th>Prefill (pp)</th>
<th>Generation (tg)</th>
</tr>
</thead>
<tbody>
<tr>
<td>MTP 初始峰值</td>
<td>64k</td>
<td>620 t/s</td>
<td>50 t/s</td>
</tr>
<tr>
<td>MTP 32k</td>
<td>64k</td>
<td>482 t/s</td>
<td>36.36 t/s</td>
</tr>
<tr>
<td>关闭 MTP 初始峰值</td>
<td>96k</td>
<td>620 t/s</td>
<td>31 t/s</td>
</tr>
<tr>
<td>关闭 MTP 20k</td>
<td>96k</td>
<td>605 t/s</td>
<td>29.10 t/s</td>
</tr>
<tr>
<td>关闭 MTP 50k</td>
<td>96k</td>
<td>438 t/s</td>
<td>26.59 t/s</td>
</tr>
</tbody>
</table>
<h2>总结</h2>
<p dir="auto"><strong>优点</strong></p>
<ul>
<li>性价比极高，<strong>目测闲鱼 3000 以内能够搞定</strong>。</li>
<li>CUDA 生态完善，GPU 占用率长时间稳定 100%，编译完成后不用折腾，省心。</li>
<li>3060 身材苗条，有单、双风扇短版，大部分 ATX 和 mATX 主板、机箱都无压力。</li>
</ul>
<p dir="auto"><strong>缺点</strong></p>
<ul>
<li>SPLIT_MODE_TENSOR 暂时无法使用 kv cache 量化，导致 24GB 仍稍显不足。但这肯定不是小众需求，简单 q8 也能翻倍到 128k / 192k，未来可期。一旦 kv 量化解决，我就可以把 7900 xtx 淘汰了。<strong>更新</strong>：经 <a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 提醒，回退到 PR#22616 之前，打上 PR#23225 补丁，开 MTP 可以开到 128k 上下文。</li>
</ul>
<p dir="auto"><strong>推论</strong></p>
<ul>
<li>双 16GB、速度稍快的卡，比如 4060Ti、5060Ti，虽然性价比会下降，但效果只会更好。还是那句话，CUDA 发挥稳定，省心。同样是 32GB，比跛脚 AI PRO R9700 肯定快得多，价格还稍低。</li>
<li>更新：外网有人根据本帖配置用双 5060Ti 跑出 <strong>pp 700 t/s, tg 65 t/s</strong>。</li>
<li>主要是 SPLIT_MODE_TENSOR 立功了。但凡双 N 卡的，最小超过 12 GB 的，统统都可以尝试。</li>
</ul>
<p dir="auto"><strong>其它</strong></p>
<ul>
<li>vllm 也有简单尝试，但 vllm 可能是对 VRAM 紧张的场景优化不佳，怎么跑都 OOM。且 vllm 启动太慢了，调试麻烦，不折腾了。</li>
</ul>
<h2>附录</h2>
<p dir="auto">详细配置</p>
<pre><code>    --no-mmproj-offload \
    -dev CUDA0,CUDA1  -sm tensor -ts 1,1 \
    --fit off \
    --host 0.0.0.0 --port "$PORT" \
    -t 0 -ngl 99 -np 1 \
    --kv-unified --flash-attn on --ctx-size 64000 \ # 或 96000
    --spec-type draft-mtp --spec-draft-n-max 1 \ # 或去掉
    -rea on \
    --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0
</code></pre>
<p dir="auto"><img src="https://upload.lcz.me/uploads/07ac58a9-79fb-4160-b6ef-2d252aaea3fc.jpeg" alt="c89f5337-e172-4394-82f9-621b24bc1131-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/328/双卡指南-最丐-qwen3.6-27b-3000-元双-rtx-3060-50t-s</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 05:33:26 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/328.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 26 May 2026 19:24:25 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 17:24:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/joker_chang" aria-label="Profile: joker_chang">@<bdi>joker_chang</bdi></a> 这个真不懂，没有玩过 x99</p>
]]></description><link>https://lcz.me/post/4096</link><guid isPermaLink="true">https://lcz.me/post/4096</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Thu, 28 May 2026 17:24:54 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 17:13:46 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vosrock" aria-label="Profile: vosrock">@<bdi>vosrock</bdi></a> 不错，显存差点，搞两张</p>
]]></description><link>https://lcz.me/post/4095</link><guid isPermaLink="true">https://lcz.me/post/4095</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Thu, 28 May 2026 17:13:46 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 16:14:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> 我用的是3080 20G，不就是3000嘛</p>
]]></description><link>https://lcz.me/post/4090</link><guid isPermaLink="true">https://lcz.me/post/4090</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Thu, 28 May 2026 16:14:10 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 15:26:03 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vosrock" aria-label="Profile: vosrock">@<bdi>vosrock</bdi></a> 上哪找 3000 人民币的 4080？</p>
]]></description><link>https://lcz.me/post/4083</link><guid isPermaLink="true">https://lcz.me/post/4083</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Thu, 28 May 2026 15:26:03 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 14:27:10 GMT]]></title><description><![CDATA[<p dir="auto">都170K上下文了，任务都跑了一个多小时了，还能有50多TOKEN/S，不过这个不是常态，通常这个时候只能到30T/S，PERFILL只能到350左右</p>
]]></description><link>https://lcz.me/post/4071</link><guid isPermaLink="true">https://lcz.me/post/4071</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Thu, 28 May 2026 14:27:10 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 14:25:39 GMT]]></title><description><![CDATA[<p dir="auto">都是3000块，别折腾双卡了，3090另说，不过也没有4080 32G香</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/41eac6cf-d21a-4c36-af5f-c496766474e3.png" alt="022.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/4069</link><guid isPermaLink="true">https://lcz.me/post/4069</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Thu, 28 May 2026 14:25:39 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Thu, 28 May 2026 06:57:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> 大神，锤哥推荐的X99主板，插双卡，PCIe在BOIS中该如何设置，求指点迷津</p>
]]></description><link>https://lcz.me/post/4022</link><guid isPermaLink="true">https://lcz.me/post/4022</guid><dc:creator><![CDATA[joker_chang]]></dc:creator><pubDate>Thu, 28 May 2026 06:57:09 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 11:08:04 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> <a href="/post/3845">说</a>:</p>
<p dir="auto">但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。</p>
</blockquote>
<p dir="auto">这个信息很关键啊，ai了一下：</p>
<p dir="auto">作为一张拥有 960 GB/s 显存带宽、24GB VRAM 的旗舰级显卡，7900 XTX 跑出 300~500 t/s 的 Prefill（首字延迟/提示词处理）速度绝对是不正常的。正常情况下，在全显存（无内存交叉）时，7900 XTX 处理长文本的 Prefill 应该能飙到 1500~2000+ t/s。相比之下，3060 哪怕带宽只有 360 GB/s，但在 CUDA 生态下其算力核心利用率非常稳定。7900 XTX Prefill 速度慢且极度不稳定的根源，不在于硬件本身，而在于 AMD 软件栈在特定推理框架下的 Kernel（算力核心）调度、内存分配以及算子缺失。</p>
<p dir="auto">致命伤：FlashAttention 算子没有真正跑起来Prefill 阶段是算力受限（Compute-bound）的，需要极其密集的矩阵乘法。</p>
<p dir="auto">Nvidia 显卡默认使用极致优化的 FlashAttention（甚至 FlashAttention-3）。<br />
痛点：在 ROCm 或 Vulkan 下，如果框架没有正确调用专门针对 RDNA3（GFX1100）优化的 FlashAttention 算子，系统会自动降级去跑极慢的传统 SDPA（PyTorch 默认注意力）或者非对齐算子。这会导致显卡空有几百 W 功耗，算力利用率却极低。</p>
<p dir="auto">解决办法（vLLM）：在启动 vLLM 时，检查日志中关于 Attention Backend 的输出。确保其使用的是针对 AMD 优化的后端。可以通过环境变量强制指定：bashexport VLLM_ATTENTION_BACKEND=TRITON_ATTN</p>
<h1>或者在最新版本的 vLLM 尝试</h1>
<p dir="auto">export VLLM_USE_FLASH_ATTN=1<br />
请谨慎使用此类代码。<br />
(注：如果使用 Llama.cpp，请确保编译时开启了 GGML_HIPBLAS=ON 或者是最新的开源统一注意力 AITER)。</p>
]]></description><link>https://lcz.me/post/3926</link><guid isPermaLink="true">https://lcz.me/post/3926</guid><dc:creator><![CDATA[blackjack]]></dc:creator><pubDate>Wed, 27 May 2026 11:08:04 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 07:06:32 GMT]]></title><description><![CDATA[<p dir="auto">我有张3060m12g,不知道是不是散热问题，功耗卡在40w</p>
]]></description><link>https://lcz.me/post/3901</link><guid isPermaLink="true">https://lcz.me/post/3901</guid><dc:creator><![CDATA[深圳律师陈扬波]]></dc:creator><pubDate>Wed, 27 May 2026 07:06:32 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 07:03:55 GMT]]></title><description><![CDATA[<p dir="auto">表扬。炫耀作业，不炫耀文具</p>
]]></description><link>https://lcz.me/post/3899</link><guid isPermaLink="true">https://lcz.me/post/3899</guid><dc:creator><![CDATA[深圳律师陈扬波]]></dc:creator><pubDate>Wed, 27 May 2026 07:03:55 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 06:29:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/asd2667" aria-label="Profile: asd2667">@<bdi>asd2667</bdi></a> 赞！倒腾一下 #23225 可以双 q8 或双 q4，但目前性能略有损失。</p>
]]></description><link>https://lcz.me/post/3894</link><guid isPermaLink="true">https://lcz.me/post/3894</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Wed, 27 May 2026 06:29:42 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 13:25:02 GMT]]></title><description><![CDATA[<p dir="auto">抄作业，两张5060TI-16G,稳定在57t/s,缺点上下文不能压缩，Q4的大模型只能跑200K上下文，加上上下文压缩不能正常启动大模型!<img src="https://upload.lcz.me/uploads/a28ffaa4-51ef-4f3c-b7ec-1a045dc900d0.png" alt="ScreenShot_2026-05-27_212415_552.png" class=" img-fluid img-markdown" /> 。<br />
<img src="https://upload.lcz.me/uploads/fc010d4d-3200-478d-ac26-83c7cd20ff6a.png" alt="ScreenShot_2026-05-27_142430_657.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/70f15ef0-38b3-4727-b3d3-a7cebcbebc5e.png" alt="ScreenShot_2026-05-27_142655_840.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/3893</link><guid isPermaLink="true">https://lcz.me/post/3893</guid><dc:creator><![CDATA[asd2667]]></dc:creator><pubDate>Wed, 27 May 2026 13:25:02 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 04:25:24 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> 恭喜，貌似没有被合并是因为除了Q8量化和Q4量化以外都会报错，但是作为临时方案应该是够用的。</p>
]]></description><link>https://lcz.me/post/3889</link><guid isPermaLink="true">https://lcz.me/post/3889</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Wed, 27 May 2026 04:25:24 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 04:15:44 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 尝试下来确实有用。按评论所说，回退到 #22616 之前，打上 #23225 补丁，开 MTP 可以开到 128k 上下文了</p>
]]></description><link>https://lcz.me/post/3888</link><guid isPermaLink="true">https://lcz.me/post/3888</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Wed, 27 May 2026 04:15:44 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 01:32:33 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tommam" aria-label="Profile: tommam">@<bdi>tommam</bdi></a> 理论上 Gen4 x4 就相当于 Gen3 x8 了，很多新一点的主板是有的。比如 1 x PCIe 4.0 x16 + 1 x PCIe 3.0 x16，或者 1 x PCIe 5.0 x16 + 1 x PCIe 4.0 x4。不是非得 x8+x8。</p>
<p dir="auto">随便挑一个 华硕TUF GAMING B760M-PLUS D4重炮手，就是 Gen5 x16 + Gen4 x4。<br />
<img src="https://upload.lcz.me/uploads/02228abd-3657-4410-ab26-06e5c8b59a4c.jpeg" alt="18fbaf68-02f2-47fc-9755-ed9aba4ff381-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">这种配置近期似乎比较流行。但 Gen4 x4 那一路走的是芯片组不是 CPU，可能会有一点影响。</p>
<p dir="auto">主板支持 PCIe 通道拆分的话可以买线拆分成 Gen5 x8+x8。</p>
]]></description><link>https://lcz.me/post/3867</link><guid isPermaLink="true">https://lcz.me/post/3867</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Wed, 27 May 2026 01:32:33 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Wed, 27 May 2026 01:10:27 GMT]]></title><description><![CDATA[<p dir="auto">你好，并行不是需要主板支持的吗？现在大部分ddr4主板都不能并行X8X8啊，</p>
]]></description><link>https://lcz.me/post/3864</link><guid isPermaLink="true">https://lcz.me/post/3864</guid><dc:creator><![CDATA[tommam]]></dc:creator><pubDate>Wed, 27 May 2026 01:10:27 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 23:38:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 感谢提供信息</p>
]]></description><link>https://lcz.me/post/3854</link><guid isPermaLink="true">https://lcz.me/post/3854</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Tue, 26 May 2026 23:38:04 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 23:33:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> 研究了下，有人就这个问题提交了pr，目前看还没有被处理</p>
<p dir="auto"><a href="https://github.com/ggerganov/llama.cpp/pull/23225" rel="nofollow ugc">https://github.com/ggerganov/llama.cpp/pull/23225</a></p>
<p dir="auto">应该对于多卡用户是个好消息</p>
]]></description><link>https://lcz.me/post/3853</link><guid isPermaLink="true">https://lcz.me/post/3853</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 23:33:09 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 23:23:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stakira" aria-label="Profile: stakira">@<bdi>stakira</bdi></a> 学习了，之前没发现有这个问题，我已修正帖子</p>
]]></description><link>https://lcz.me/post/3852</link><guid isPermaLink="true">https://lcz.me/post/3852</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 23:23:26 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 23:21:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 帖子里已经说明了，SPLIT_MODE_TENSOR 目前开不了 kv 量化。</p>
]]></description><link>https://lcz.me/post/3851</link><guid isPermaLink="true">https://lcz.me/post/3851</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Tue, 26 May 2026 23:21:52 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 23:25:05 GMT]]></title><description><![CDATA[<p dir="auto">注，作者提醒，SPLIT_MODE_TENSOR不能开启kv量化，以下内容仅作参考</p>
<p dir="auto">不错的尝试，可以尝试把kv量化调整到q8，这样24GB显存放下128K的上下文应该不是问题。<br />
--cache-type-k q8_0<br />
--cache-type-v q8_0</p>
<p dir="auto">q8量化的kv，困惑度上升的不是很多，远低于你从q4_k_m到q4_k_s上升的困惑度。</p>
<p dir="auto">所以可以试试q4km+kv8比特量化的组合</p>
]]></description><link>https://lcz.me/post/3850</link><guid isPermaLink="true">https://lcz.me/post/3850</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 23:25:05 GMT</pubDate></item><item><title><![CDATA[Reply to (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t&#x2F;s on Tue, 26 May 2026 22:55:05 GMT]]></title><description><![CDATA[<p dir="auto">讚一個。不錯Intel系統多是PCI Burification。CPU PCI Lane 给分开来。AMD PCI 5.0 x 16 CPU 但是 第二卡 x4 用的是ChipSet 會有速度損失。</p>
]]></description><link>https://lcz.me/post/3848</link><guid isPermaLink="true">https://lcz.me/post/3848</guid><dc:creator><![CDATA[AresROC]]></dc:creator><pubDate>Tue, 26 May 2026 22:55:05 GMT</pubDate></item></channel></rss>