<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[16g 6800xt 推理qwen 3.6 27b 的经验分享  已经对amd prefill 速度的问题。]]></title><description><![CDATA[<p dir="auto">我现在用6800xt 推理IQ3_XSS 的模型， 开mpt2   kv设置q4_0 可以很勉强的运行128k 上下文。 这时候显存99</p>
<p dir="auto">速度在64k上下文prefill 200,  TG 28~38。 这个速度用opencode 做一些简单的代码开发已经可以满足的。 但是对amd的prefill 速度很不满意。 使用hermes 进场读一个tools的反馈需要30秒。</p>
<p dir="auto">我差了一些资料3090 在128k 上下文pp 也能做到1000+， 而7900xtx 只有400~500的pp， 那面对超长上下文的prompt process 速度可以忍受么？ 如果重度agent 是不是3090 是唯一解？</p>
<p dir="auto">现在使用7900xtx 推理qwen 3.6 27b的同学， 你们的prefill 速度满意么？</p>
<p dir="auto">/data/dev/llama-mtp-stable/build/bin/llama-server -m "/data/llm/models/Qwen3.6-27B-UD-IQ3_XXS.gguf"  -ngl 99 -c 128192 -fa on -np 1  --spec-type draft-mtp --spec-draft-n-max 2    --host 0.0.0.0  --cache-type-k q4_0 --cache-type-v q4_0 --logit-bias 151649-inf,151650-inf  --parallel 1   --spec-draft-p-min 0.75 --reasoning-budget 512</p>
]]></description><link>https://lcz.me/topic/181/16g-6800xt-推理qwen-3.6-27b-的经验分享-已经对amd-prefill-速度的问题</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 07:04:40 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/181.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 17 May 2026 04:59:03 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 16g 6800xt 推理qwen 3.6 27b 的经验分享  已经对amd prefill 速度的问题。 on Sun, 17 May 2026 07:04:39 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/coin1860" aria-label="Profile: coin1860">@<bdi>coin1860</bdi></a> AMD的Prefill速度确实是个痛点。6800xt的ROCm对llama.cpp的优化不如N卡成熟，这是硬件生态问题。</p>
<p dir="auto">几个实际能改善的点：</p>
<ol>
<li>
<p dir="auto"><strong>换用最新llama.cpp</strong> + ROCm后端。最近几个版本对AMD Prefill有优化，尤其是PR #22673之后的MTP支持，能缓解一些Prefill等待感。</p>
</li>
<li>
<p dir="auto"><strong>降低KV Cache精度</strong>：<code>--kv-cache-type q4_0</code> 在128K上下文下特别有用。Prefill慢的一个原因是128K的KV Cache写入带宽太大，Q4量化后带宽压力减少，Prefill能快不少。</p>
</li>
<li>
<p dir="auto"><strong><code>--no-mmap</code> 配合 <code>--mlock</code></strong>：在ROCm上有时能减少内存页交换带来的延迟抖动。</p>
</li>
<li>
<p dir="auto"><strong>关于terry说的Q4KV跑Agent不行</strong>：确实，Q4 KV Cache在Agent场景下质量有损失，因为Agent需要精确理解tools schema。建议Agent任务用 <code>--kv-cache-type q8_0</code> ，日常对话和代码补全用 <code>q4_0</code>。可以写两个启动脚本切换。</p>
</li>
</ol>
<p dir="auto">6800xt 16G能跑IQ3_XSS的128K已经很强了，32-38 TG对代码开发完全可用。AMD在Prefill上的短板短期内不太可能追上N卡，但通过KV Cache量化和MTP能缓解不少。</p>
]]></description><link>https://lcz.me/post/2092</link><guid isPermaLink="true">https://lcz.me/post/2092</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sun, 17 May 2026 07:04:39 GMT</pubDate></item><item><title><![CDATA[Reply to 16g 6800xt 推理qwen 3.6 27b 的经验分享  已经对amd prefill 速度的问题。 on Sun, 17 May 2026 05:52:48 GMT]]></title><description><![CDATA[<p dir="auto">xtx的速度比4090慢很多，比3090估计也慢不少，prefill，但是我自己跑hermes感觉差不多，可以接受。你开Q4 kv跑Agent行吗？我看你们都常用用Q4KV，我怎么用它跑Agent不行呢？</p>
]]></description><link>https://lcz.me/post/2075</link><guid isPermaLink="true">https://lcz.me/post/2075</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 17 May 2026 05:52:48 GMT</pubDate></item></channel></rss>