<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成）]]></title><description><![CDATA[<p dir="auto">本来还想再多测几天再发帖的，但今晚实在兴奋得睡不着，干脆先把这套配置分享出来给同好们抄作业。经过几天折腾，终于在 HuggingFace 上找到了一个真正适配 24G 显卡长上下文场景的 MTP 模型，配合华为 KVarN KV 缓存量化和 Beellama 分支，把 3090 这块"24G 尴尬卡"压榨到了一个我自己都没想到的程度。</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3af.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--dart" style="height:23px;width:auto;vertical-align:middle" title="🎯" alt="🎯" /> 一句话结论<br />
在 RTX 3090 24G 上，用 Qwen3.6-27B-smol-MTP-IQ4_NL.gguf + Beellma（6月16日编译版）+ KVarN K6/V5 KV 量化 + MTP n=3 推测解码，可以稳定撑起 168K 上下文，生成速度稳在 55 T/s 左右、接受率 70–80%，显存占用 22G 出头，编程实测可用度相当能打。</p>
<p dir="auto">🧠 关键洞察：1. MTP 头的量化等级才是 24G 的命门<br />
折腾了一圈带内置 MTP 的模型后，我发现一个被大多数人忽略的点：</p>
<p dir="auto">大多数内置 MTP 的模型，注意力头（draft head）的量化控制都拉胯，尤其是那些 15G 以内的版本。</p>
<p dir="auto">很多作者为了让模型在 16G 显卡上跑 32K 上下文、刷个分、发个推，根本没考虑真实长上下文需求。这类模型一旦上下文推到 80K–90K 之后，速度就会断崖式掉到 20–30 T/s——原因正是它们的 MTP 头也是 Q4 以下量化的，长上下文下 draft 质量崩了，接受率雪崩，推测解码反而变成累赘。</p>
<p dir="auto">而这次找到的这款模型（作者 IHaveNoClueAndIMustPost），在模型卡上明确写明了"适配 131K 上下文的 24G 显卡，根据 KV 量化等级可增减"。目测它的 MTP 头应该是 Q6 级别的，这点至关重要！</p>
<p dir="auto">24G 显卡的尴尬就在这里：</p>
<p dir="auto">MTP 头选 Q8 → 占用偏大 → 没地方放高质量 KV Cache<br />
MTP 头选 Q4 以下 → 短上下文看着快，长上下文接受率崩盘<br />
Q6 级别的 MTP 头 + KVarN 量化的 KV Cache，是我目前试下来 24G 卡上最平衡的组合。</p>
<ol start="2">
<li>温度，温度，温度！ 笔者 端午后两天在家，24小时开着空调，据回忆，显卡的满载温度在40-55度左右。<br />
今天上班了，远程回家再测，HERMES满载，温度已经62-65度了。<br />
别小看这10多度，目测估计 至少降低了 15%-20%的token生成率。</li>
</ol>
<p dir="auto">3.beellama 后期可能会由于 显存不足而产生 将Checkpoint 在显存与内存之间疯狂腾挪，直观的感受就是速率直降，如果你不想这样，那请加--cache-ram 0 （后果就是旧的检查点被覆盖，直接“失忆”，无法很好的完成工作！）</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2699.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--gear" style="height:23px;width:auto;vertical-align:middle" title="⚙" alt="⚙" />️ 环境与启动参数<br />
硬件/软件：</p>
<p dir="auto">GPU：RTX 3090 24G<br />
CUDA：12.4（nvcc --version 确认）<br />
推理后端：Beellma 3.2 预览版，6 月 16 日自编译版本（选它唯一的原因：支持华为 KVarN KV Cache）<br />
模型：ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf（约 17G，Q4 级）<br />
KV Cache：K = kvarn6，V = kvarn6，统一模式开启</p>
<p dir="auto">6-22 上午最佳编程配置：</p>
<p dir="auto">killall llama-server 2&gt;/dev/null; sleep 3<br />
/data/model2/beellma616-kv.cpp/build/bin/llama-server <br />
-m /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf <br />
-ngl 9999 --props <br />
-fa on --metrics --ctx-size 168000 -n 16000 <br />
-ctk kvarn6 -ctv kvarn6 --kv-unified <br />
--spec-type mtp --spec-draft-n-max 3 <br />
--jinja --no-mmap --mlock -np 1 -b 2048 -ub 512 <br />
--host 0.0.0.0 --port 8025 <br />
--reasoning off <br />
--chat-template-kwargs '{"preserve_thinking":true}' <br />
--reasoning-format deepseek --reasoning-budget 1024 <br />
--chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja <br />
--temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128<br />
几个关键参数的取舍说明：</p>
<p dir="auto">参数	取值	作用与取舍<br />
-ctk kvarn6 -ctv kvarn6	K=6bit / V=6bit	华为 KVarN 方差归一化量化，长上下文下精度接近 Q8_0，显存压缩 3–5 倍</p>
<p dir="auto">--kv-unified	on	K/V 统一缓冲，减少调度开销<br />
--spec-type mtp --spec-draft-n-max 3	MTP n=3	每步预测 3 token，实测接受率 70–80%，再高接受率掉得明显</p>
<p dir="auto">-b 2048 -ub 512	逻辑/物理批	偏保守以保证显存稳定，后续可试 ub=1024 提升预填充<br />
--reasoning off --reasoning-budget 1024	关思考+预算 1024	编程任务关掉思考链更稳，避免 harness 冲突<br />
--temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05	Qwen 推荐采样</p>
<p dir="auto">🧪 实测三连：中国象棋 / 俄罗斯方块 / opencode 长上下文<br />
测试一：中国象棋 HTML（多文件工作流）<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /><br />
一上来直接挑战老项目。这几天我已经把提示词改成多文件模式，明确禁止 AI 一次性生成单文件——这项目跑 MVP 也要 1500 行左右，单文件很容易卡死。</p>
<p dir="auto">我没指望这个 Q4 的 17G 模型有多惊喜，所以没计时间就去洗澡了。洗完回来发现它还在自动调试，工具调用依然不完美。手动停掉、修了几个 JS 错误后，双机对战还是不能用，放弃。</p>
<p dir="auto">毕竟是 Q4 的 17G 模型，不能期望太高。之前测这套提示词，只有 Qwopus-coder 27B 的表现最完美。</p>
<p dir="auto">测试二：俄罗斯方块单文件（TRAE）<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /><br />
再在 TRAE 里测俄罗斯方块单文件，两分钟就完成了。让它修复 JS 错误后基本无错运行，TRAE 版 890 行。</p>
<p dir="auto">测试三：俄罗斯方块单文件（opencode，本地模型）<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /><br />
同样提示词丢给 opencode，明确让它不要用在线模型。结果它用了 10 分钟左右、耗用 50K token，直接无错运行，opencode 版 850 行。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/053f8b5c-cfa2-49a8-89d4-a074791c85ab.jpeg" alt="f2ee18d9-f8b2-42c3-9d13-c20dc143cd8f-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/7694ff4a-a0d2-4bed-b5a8-1f40104e8a55.jpeg" alt="aeb0faad-8042-4949-a73b-ce87601e64f9-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">测试四：中国象棋（opencode 长上下文压测）<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️<br />
<img src="https://upload.lcz.me/uploads/a452d6d7-6bed-4e05-9c97-11672216ec55.jpeg" alt="71f04124-083d-4d4e-8351-02e28921c825-image.jpeg" class=" img-fluid img-markdown" /><br />
再让 opencode 跑中国象棋。此时任务 ID 已经到 19000 多了，拉到最上面只能看到 9000 多的。预填充速度已变为 1300 MB/s，说明旧的检查点已被弃用。</p>
<p dir="auto">跑了一会儿后，opencode 的上下文到了 30 多 K tokens。约 12 分钟时，168K 上下文开始翻转，日志大量删除、重建 KV Cache——KVarN 在长上下文翻页时的表现比 Q4_0 平滑很多，没有出现明显的速度塌方。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/5fdfd087-4996-4551-a8b2-dac4991514e7.jpeg" alt="4b0bef4b-8840-4151-ba8f-a0ac6ff31c00-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">到收尾整合阶段，opencode 思考得有点多，任务 ID 涨到 28000，速度降到 45 T/s。在这里它绕了 10 分钟才到最后一步——Qwen 这个配置的"智商"和 opencode 内置的 harness 应该产生了冲突，棋子位置都是错的。打断、让它上网查标准棋盘布局，还是做不好，只能放弃，让它做交接总结。<br />
<img src="https://upload.lcz.me/uploads/88113e54-17d4-46d5-abdf-e055fd7939cf.jpeg" alt="f1121450-fe1a-4fbf-a9fa-5dcaec354a11-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/bd7ff315-b525-4a4e-a9ba-8e76f5d5181b.jpeg" alt="ed2ed3e7-e1d3-4a6f-8ae2-859294bf7849-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">做完差点撞到 168K 上限，好险！这也说明这套配置的长上下文承压能力是真实的，不是跑分跑出来的。<br />
<img src="https://upload.lcz.me/uploads/fa81d357-0194-435d-b8ca-2d7f983ca4d9.jpeg" alt="978d2e4a-c69c-47fc-a440-ad37156324bb-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 性能与显存数据<br />
指标	数值<br />
显存占用	22G 出头（ub 不激进时可稳定，大胆点能压到 23G）<br />
稳定生成速度	~55 T/s<br />
后期降速	~45 T/s（上下文翻页 + 任务 ID 2.8 万时）<br />
MTP 接受率	70–80%<br />
预填充速度（缓存失效后）	~1300 MB/s<br />
上下文翻转	约 12 分钟触发一次 KV Cache 重建<br />
观察：填充率略偏低，如果把 -ub 从 512 改到 1024 应该有改善，下一步会试。</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f41b.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--bug" style="height:23px;width:auto;vertical-align:middle" title="🐛" alt="🐛" /> 已知不足</p>
<ol>
<li>raw tool marker observed while lazy grammar is enabled 紫色提示依然存在</li>
</ol>
<p dir="auto">这条提示在工具调用时会反复刷。问过 Gemini，查找的结论大概是建议用 --peg 参数处理 lazy grammar 与 raw tool marker 的冲突，但 Beellma 没有 --peg 这个参数。而我必须用 Beellma 的原因是它支持华为 KVarN KV Cache，这是硬需求，只能无奈放弃这个修复。</p>
<ol start="2">
<li>chat 模板是英文的，导致思考过程和解释都是英文</li>
</ol>
<p dir="auto">这套 chat_template-Carnice27B-MTP-opt-v2.jinja 是英文模板，IDE 里的思考过程、解释全是英文。如果能汉化就完美了。不过对我来说倒无所谓，正好练英语。有能力的同学可以基于它做个中文版 jinja 分享出来。</p>
]]></description><link>https://lcz.me/topic/651/26-06-22-极限压榨-rtx-3090-24g-真正中质量长上下文-168k-达成</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:35 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/651.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 21 Jun 2026 18:30:56 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 28 Jun 2026 03:21:15 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/johnnybegood" aria-label="Profile: johnnybegood">@<bdi>johnnybegood</bdi></a> <a href="https://huggingface.co/ubergarm/Qwen3.6-27B-GGUF/tree/main" rel="nofollow ugc">https://huggingface.co/ubergarm/Qwen3.6-27B-GGUF/tree/main</a></p>
]]></description><link>https://lcz.me/post/8615</link><guid isPermaLink="true">https://lcz.me/post/8615</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 28 Jun 2026 03:21:15 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 28 Jun 2026 03:17:56 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/wwcd2016" aria-label="Profile: wwcd2016">@<bdi>wwcd2016</bdi></a> hermes 4.3 好像是为了调度工具 特意搞的<br />
但是我3090 在llama 跑只有20t/s prefill 只有400</p>
<p dir="auto">而且只是文字模型<br />
所以没再尝试了</p>
<p dir="auto">希望有大佬测试</p>
]]></description><link>https://lcz.me/post/8614</link><guid isPermaLink="true">https://lcz.me/post/8614</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Sun, 28 Jun 2026 03:17:56 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 28 Jun 2026 03:13:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/wwcd2016" aria-label="Profile: wwcd2016">@<bdi>wwcd2016</bdi></a></p>
<p dir="auto">額, Qwen 3.6 27B本來在Agentic 調用上就是第一啊</p>
<p dir="auto">不然也不會出現這麽多基於它的微調</p>
<p dir="auto">Gemma 4 Dense在Agentic調用上就不知道爲什麽比27B差 (當然這個很主觀)</p>
]]></description><link>https://lcz.me/post/8613</link><guid isPermaLink="true">https://lcz.me/post/8613</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 28 Jun 2026 03:13:17 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 28 Jun 2026 03:08:14 GMT]]></title><description><![CDATA[<p dir="auto">我围观。表示int6 做了mtp头仍然会严重降低智商。出错概率大。编程别想了。<br />
我的需求就是，找到一个本地显卡，驱动hermes干活管理系统。驱动codex 自动完成复杂任务。<br />
但是3090 我表示放弃。<br />
最低入门4080s魔改32g<br />
舒适4090魔改48g<br />
——<br />
或者各位大佬，有没有人能推翻lcz的论点：qwen3.6 27b是当前综合第一。<br />
我不要综合第一，我要能干活。不出错就好了。<br />
——</p>
]]></description><link>https://lcz.me/post/8611</link><guid isPermaLink="true">https://lcz.me/post/8611</guid><dc:creator><![CDATA[wwcd2016]]></dc:creator><pubDate>Sun, 28 Jun 2026 03:08:14 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 28 Jun 2026 01:47:39 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> <a href="/post/7733">说</a>:</p>
<p dir="auto">27B-smol</p>
</blockquote>
<p dir="auto">HF搜不到， 给个下载链接哈</p>
]]></description><link>https://lcz.me/post/8600</link><guid isPermaLink="true">https://lcz.me/post/8600</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 28 Jun 2026 01:47:39 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Mon, 22 Jun 2026 03:37:52 GMT]]></title><description><![CDATA[<p dir="auto">KVarN  是turboquant 的 2.3–3.7×？<br />
两张3090 不是500k+ 上下文？</p>
]]></description><link>https://lcz.me/post/7781</link><guid isPermaLink="true">https://lcz.me/post/7781</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Mon, 22 Jun 2026 03:37:52 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Mon, 22 Jun 2026 01:00:36 GMT]]></title><description><![CDATA[<p dir="auto">KVarN原來不是vLLM限定？</p>
<p dir="auto">還是外國大神們手作一個出來</p>
]]></description><link>https://lcz.me/post/7762</link><guid isPermaLink="true">https://lcz.me/post/7762</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Mon, 22 Jun 2026 01:00:36 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Mon, 22 Jun 2026 02:56:21 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/1df4a946-7a0a-49d5-a5eb-11dcf0e219ba.jpeg" alt="f6bff296-83b6-431a-8723-28f603c783ff-image.jpeg" class=" img-fluid img-markdown" /><br />
产生的中国象棋，我试玩了内核算法可能有问题，但是它已经按我最初的要求实现了象棋的最小MVP产品。 相信如果安装好了codegraph,它就能更好独自的处理这种多文件项目。</p>
<p dir="auto">神图镇楼：<br />
<img src="https://upload.lcz.me/uploads/933e1fc5-9820-4000-b713-e47baad8770e.jpeg" alt="39b5a531-b60a-439b-ac5a-8f141d3480f7-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/50faeb4c-2ad2-4b5f-90f7-36d5297e755d.jpeg" alt="77b5d6a6-5ba8-42d8-9140-4753fe721023-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/8f966bea-4374-47ac-812c-2ea7b182e50d.jpeg" alt="8e08e7ab-a7c1-4184-85bf-f03bf6e8994c-image.jpeg" class=" img-fluid img-markdown" /><br />
Q4KM和Q3KM是多么的节能啊！<br />
个人以为，多数场景，真正重要的是外部（用户输入的提示词）与 模型内部 固有的） 二者都是Q4量化，二者的乘积产生的Q8量化结果，在整个使用过程中 疯狂运算。从而得到用户期望的结果。 这个过程，自然是Q8权重的模型更耗电。</p>
<p dir="auto">踩过的坑：<br />
<img src="https://upload.lcz.me/uploads/6ed78987-7a9a-4ad5-825d-eb8d01ae8294.jpeg" alt="81b38042-ed2b-4ceb-96ba-1139f09b72db-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7755</link><guid isPermaLink="true">https://lcz.me/post/7755</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:56:21 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 21 Jun 2026 23:01:54 GMT]]></title><description><![CDATA[<p dir="auto">最后的稳定参数，请24G NVIDIA卡友自测，<br />
只差日志里面的一个  raw tool marker observed while lazy grammar is enabled; active grammar will be handled by the sampler in_reasoning 解决不了了<br />
可以换框架加--peg参数。</p>
<pre><code>killall llama-server 2&gt;/dev/null; sleep 3
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
-m  /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf \
-ngl 9999 --props \
-fa on --metrics  --ctx-size 158000 -n 14000  \
-ctk kvarn8 -ctv kvarn8 --kv-unified \
--spec-type mtp --spec-draft-n-max 3 \
--jinja --no-mmap --mlock -np 1   -b 2048 -ub 512  \
--host 0.0.0.0 --port 8025 \
--reasoning off \
  --chat-template-kwargs '{"preserve_thinking":true}' \
--reasoning-format deepseek --reasoning-budget 1024 \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
 --temp 0.61 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128
</code></pre>
<p dir="auto">622am6 最佳hermes</p>
<pre><code>      ```
</code></pre>
<p dir="auto">killall llama-server 2&gt;/dev/null; sleep 3<br />
/data/model2/beellma616-kv.cpp/build/bin/llama-server <br />
-m  /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf <br />
-ngl 9999 --props <br />
-fa on --metrics  --ctx-size 148000 -n 14000  <br />
-ctk kvarn8 -ctv kvarn8 --kv-unified <br />
--spec-type mtp --spec-draft-n-max 3 <br />
--jinja --no-mmap --mlock -np 1   -b 2048 -ub 512  <br />
--host 0.0.0.0 --port 8025 <br />
--reasoning off <br />
--chat-template-kwargs '{"preserve_thinking":true}' <br />
--reasoning-format deepseek --reasoning-budget 1024 <br />
--chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja <br />
--temp 0.72  --top-k 20 --top-p 0.87 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0</p>
<pre><code>

模板文件在这里：https://wormhole.app/R8K7Ka#EQllW_B3xTm2odW6hSr1Nw</code></pre>
]]></description><link>https://lcz.me/post/7754</link><guid isPermaLink="true">https://lcz.me/post/7754</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 21 Jun 2026 23:01:54 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 21 Jun 2026 19:31:24 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/a05a56c3-e125-4849-af13-e589c8db2e17.jpeg" alt="242d8b99-eed2-4d01-87cb-8555ab7d7a59-image.jpeg" class=" img-fluid img-markdown" /> 这次10分钟就好了。opencode没有内置浏览器无法测试。</p>
<p dir="auto">不过还是有两个严重的BUG，再让它修一下吧。不行就重新 用双q8的 k v cache来跑了。<br />
<img src="https://upload.lcz.me/uploads/5ac55cc8-902f-49cd-b05a-d502f61a2dca.jpeg" alt="8c80307d-0f01-466a-9998-48fb3ab36408-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7742</link><guid isPermaLink="true">https://lcz.me/post/7742</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 21 Jun 2026 19:31:24 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 21 Jun 2026 18:48:19 GMT]]></title><description><![CDATA[<p dir="auto">接着干，这次先在别的目录装好codegraph.<br />
然后llama.cpp这边也统一为kvarn6的 kv cache .显存占用为22.3G左右。<br />
<img src="https://upload.lcz.me/uploads/230527b3-18ec-4027-af69-671048792a02.jpeg" alt="4ce321fe-f6c3-4795-8b42-f15941d7c7b4-image.jpeg" class=" img-fluid img-markdown" /><br />
先让它自己跑起来吧，希望它能完美做好，经过这么多次，我发现 本地LLM，显卡内部权重 ，KVCACHE的均衡是非常重要的，再有就是编程类的,K V CACHE尽量双Q8_0.</p>
]]></description><link>https://lcz.me/post/7738</link><guid isPermaLink="true">https://lcz.me/post/7738</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 21 Jun 2026 18:48:19 GMT</pubDate></item><item><title><![CDATA[Reply to 26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成） on Sun, 21 Jun 2026 18:37:09 GMT]]></title><description><![CDATA[<p dir="auto">非常好，这是真正的生产力场景，大家多测试下，看看含金量如何。</p>
]]></description><link>https://lcz.me/post/7735</link><guid isPermaLink="true">https://lcz.me/post/7735</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 21 Jun 2026 18:37:09 GMT</pubDate></item></channel></rss>