<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论）]]></title><description><![CDATA[<p dir="auto">起因是在<a href="https://github.com/noonghunna/club-3090/" rel="nofollow ugc">https://github.com/noonghunna/club-3090/</a> 看到有更新了.<br />
当然,我最感兴趣的还是QWEN 27B .<br />
赶紧把提示词丢给Hermes让它干活.<br />
先找了个 其它作者自称很均衡的27B MQO模型开刀( Qwen3.6-27B-MTP-MoQ-4.85.gguf 模型卡上说这是最均衡的,那就它吧.)<br />
<img src="https://upload.lcz.me/uploads/21bc848b-d070-4420-b1af-b52cc3ba7630.jpeg" alt="b65dad42-d22c-488b-b560-eb586e5900f0-image.jpeg" class=" img-fluid img-markdown" /><br />
初始显卡占用大概为20.5GB<br />
由于这次参数关闭了思维链,只好使用两步提示词:</p>
<pre><code>现在你是北京一所重点中学的高中语文特级教师，我有个语文试卷出题任务要交给你，你准备好了吗？


好，非常不错，就按你说的那些，请随机选取四大名著中的任意一部，再随机选一个章节，看你能回忆起来多少细节。用这些细节和原文制作一道高二语文的阅读理解题 （总分40分，要有判断题，填空题 ，有选择题 ，有问答题 ），要包含对考生文言文和阅读理解的考察,最后附上标准答案及评分指引。
</code></pre>
<p dir="auto">总耗时为63秒,产生了3300个左右的TOKEN.  速度大概52T/S</p>
<p dir="auto">8.43.973.423 I slot print_timing: id  0 | task 805 | prompt eval time =     671.66 ms /   572 tokens (    1.17 ms per token,   851.62 tokens per second)<br />
8.43.973.425 I slot print_timing: id  0 | task 805 |        eval time =   53959.12 ms /  2841 tokens (   18.99 ms per token,    52.65 tokens per second)<br />
8.43.973.425 I slot print_timing: id  0 | task 805 |       total time =   54630.78 ms /  3413 tokens<br />
8.43.973.426 I slot print_timing: id  0 | task 805 |    graphs reused =       1927<br />
8.43.973.427 I slot print_timing: id  0 | task 805 | draft acceptance = 0.49115 ( 1693 accepted /  3447 generated)</p>
<p dir="auto">然后我在千问在线版那里,将以前问过的那个问题创建一个分支,确保上下文纯净(公平,公正,公开,哈哈).<br />
经过它2-3分钟的努力,给出的分数是:50分<br />
<img src="https://upload.lcz.me/uploads/0ab71bed-bc14-4566-b863-13cea4f55691.jpeg" alt="ab25bd77-e2ff-41de-b913-307ed5f58e3e-image.jpeg" class=" img-fluid img-markdown" /><br />
还行,给它一次机会吧,(注意,我曾经试过让千问在线版去生成试题,也只能拿62分,咱也不是学文科的,搞不懂这些.)<br />
先试跑一下俄罗斯方块试试 :<br />
俄罗斯方块生成中,显存占用是20.4G(稳如老狗?) 结果Trae报502,应该是循环了,一看后台还在疯狂跑TOKEN.<br />
看来我用了noonghunna的参数,却没有用和他相同的模型和镜像,导致翻车. 没事.加上min-p 0.01再试试.<br />
用了3分钟,它生成了,但是有错误.玩起来比我之前那些27B生成 的俄罗斯方块要轻盈,但是不对称的L和Z形,旋转的时候明显错误,让它尝试修一下.<br />
<img src="https://upload.lcz.me/uploads/3ea362b0-daf3-4f91-9776-45b67b68deaa.jpeg" alt="031ae620-4d34-4b1f-a7e7-4dd8e882a449-image.jpeg" class=" img-fluid img-markdown" /><br />
这个模型用一句话自己去脑补生成的俄罗斯方块,基本能玩,也不错,但是似乎这个题目测不出它的实力.<br />
并且没有思考模式,开了等于没开.似乎被强制关闭了.</p>
<p dir="auto">无思考模式,单提示词,生成人机/双机 对战的中国象棋,用了13分钟(中间先删除600行,又补充了600行,怀疑我的提示词有问题), 但它这个 160K长上下文应该是 满血的.   中国象棋 没生成1000行左右,可能是因为我的提示词内部有矛盾<br />
<img src="https://upload.lcz.me/uploads/88c572d7-c3f7-49d4-95eb-de2931082fc2.jpeg" alt="1aaf4e07-5f6f-40d9-ad3d-03ac9f21bf78-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">跑完这些去看后台,显存还是占用20.4G.<br />
30.45.890.477 I slot print_timing: id  0 | task 14972 | prompt eval time =    1844.57 ms /   652 tokens (    2.83 ms per token,   353.47 tokens per second)<br />
30.45.890.479 I slot print_timing: id  0 | task 14972 |        eval time =    9730.48 ms /   422 tokens (   23.06 ms per token,    43.37 tokens per second)<br />
30.45.890.480 I slot print_timing: id  0 | task 14972 |       total time =   11575.05 ms /  1074 tokens</p>
<p dir="auto">后期的填充速度略低,只有353T/S<br />
整体来说这个模型我给86分, 华为的新格式必须给95分.</p>
<p dir="auto">等下有空再测一下noonghunna的镜像吧.</p>
]]></description><link>https://lcz.me/topic/579/全站首发-rtx-3090-24g-无痛爽玩-华为最新开源kv-cache格式-每日更新总结-希望3090卡友进来讨论</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:35 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/579.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 16 Jun 2026 01:24:14 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Sun, 28 Jun 2026 02:40:51 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/johnnybegood" aria-label="Profile: johnnybegood">@<bdi>johnnybegood</bdi></a> 90度，nvtop显示GPU和显存频率分别多少呢？ 我的显卡要是到80度我就直接停了，我平时高负载从来没有超过70度过。</p>
]]></description><link>https://lcz.me/post/8607</link><guid isPermaLink="true">https://lcz.me/post/8607</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sun, 28 Jun 2026 02:40:51 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Sun, 28 Jun 2026 01:37:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 平时我只要跑起来就 90度啊。。。</p>
]]></description><link>https://lcz.me/post/8597</link><guid isPermaLink="true">https://lcz.me/post/8597</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 28 Jun 2026 01:37:52 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Sat, 20 Jun 2026 09:12:26 GMT]]></title><description><![CDATA[<p dir="auto">坐等大佬更新，等一波抄作业</p>
]]></description><link>https://lcz.me/post/7589</link><guid isPermaLink="true">https://lcz.me/post/7589</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:12:26 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Thu, 18 Jun 2026 02:13:20 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a></p>
<p dir="auto">我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)</p>
<p dir="auto">如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢，外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了</p>
]]></description><link>https://lcz.me/post/7249</link><guid isPermaLink="true">https://lcz.me/post/7249</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 18 Jun 2026 02:13:20 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Thu, 18 Jun 2026 01:37:17 GMT]]></title><description><![CDATA[<p dir="auto">可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.<br />
我目前的体感是64K或者128K比较适合咱们这个卡.  开0.7的温度,和hermes聊天.  0.6的温度编程.  下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:<br />
就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/24cefe98-3ee2-4864-9fd4-fa01ef27f751.jpeg" alt="51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7243</link><guid isPermaLink="true">https://lcz.me/post/7243</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Thu, 18 Jun 2026 01:37:17 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Thu, 18 Jun 2026 01:06:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a></p>
<p dir="auto">我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了</p>
<p dir="auto">IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧？</p>
<p dir="auto">留8～9gb給kv cache給長上下文很不錯的</p>
]]></description><link>https://lcz.me/post/7235</link><guid isPermaLink="true">https://lcz.me/post/7235</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 18 Jun 2026 01:06:09 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Thu, 18 Jun 2026 00:13:19 GMT]]></title><description><![CDATA[<p dir="auto">目前我已经切换到IQ4_XS了，我觉得这个才是最适合coding的量化格式。</p>
]]></description><link>https://lcz.me/post/7229</link><guid isPermaLink="true">https://lcz.me/post/7229</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Thu, 18 Jun 2026 00:13:19 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Wed, 17 Jun 2026 23:03:37 GMT]]></title><description><![CDATA[<p dir="auto">突然發現up寫的是MoQ</p>
<p dir="auto">我還打算在這個周末測測看</p>
]]></description><link>https://lcz.me/post/7226</link><guid isPermaLink="true">https://lcz.me/post/7226</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Wed, 17 Jun 2026 23:03:37 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Wed, 17 Jun 2026 18:36:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 对啊 只要一跑起来就70度</p>
]]></description><link>https://lcz.me/post/7220</link><guid isPermaLink="true">https://lcz.me/post/7220</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Wed, 17 Jun 2026 18:36:05 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Wed, 17 Jun 2026 17:54:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 温度？</p>
]]></description><link>https://lcz.me/post/7219</link><guid isPermaLink="true">https://lcz.me/post/7219</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Wed, 17 Jun 2026 17:54:43 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Wed, 17 Jun 2026 17:03:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 我的显卡长期70+啊</p>
]]></description><link>https://lcz.me/post/7218</link><guid isPermaLink="true">https://lcz.me/post/7218</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Wed, 17 Jun 2026 17:03:08 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Wed, 17 Jun 2026 15:59:59 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/f4540a1d-766a-4a7e-b254-106666e317e6.jpeg" alt="79f75114-0d89-469f-ac23-3aed55d7b352-image.jpeg" class=" img-fluid img-markdown" /><br />
今天有个非常大的收获,可以说是最近10天来史诗级的 进步.我的Hermes终于可以和我日常聊天了. 不要太爽.  P100破显卡做副模型.哈哈.</p>
]]></description><link>https://lcz.me/post/7213</link><guid isPermaLink="true">https://lcz.me/post/7213</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Wed, 17 Jun 2026 15:59:59 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Tue, 16 Jun 2026 04:34:43 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/9df5e8fd-1e0a-463e-be54-90258cfcd901.jpeg" alt="346e6cef-75b4-4ca7-ac31-cb0463621317-image.jpeg" class=" img-fluid img-markdown" /><br />
让它做的三国人物关系图,耗时13分钟,略带惊艳, 是最近我测试过的里面最好的了.  这个测试必须给98分啊.</p>
]]></description><link>https://lcz.me/post/7019</link><guid isPermaLink="true">https://lcz.me/post/7019</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Tue, 16 Jun 2026 04:34:43 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Tue, 16 Jun 2026 03:48:52 GMT]]></title><description><![CDATA[<p dir="auto">现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.<br />
<img src="https://upload.lcz.me/uploads/76b789d0-d72b-4b81-8e31-29391938c06f.jpeg" alt="1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg" class=" img-fluid img-markdown" /> 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?<br />
一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)<br />
两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.<br />
同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)<br />
给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/a64fe00f-ad07-4d68-a27b-bde0a4479bbc.jpeg" alt="6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg" class=" img-fluid img-markdown" /><br />
显存维持在22G左右(剩余1.9G)</p>
<p dir="auto">写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/07936474-0dfe-44a4-81e3-0e8ab8b13e5f.jpeg" alt="81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg" class=" img-fluid img-markdown" /><br />
写完之后显存占用没变,显存管理挺优秀.<br />
<img src="https://upload.lcz.me/uploads/ca17f305-191a-4ebe-9e5b-a24dd6f86b7d.jpeg" alt="d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.<br />
<img src="https://upload.lcz.me/uploads/4ca63d49-79ac-4208-8fd4-57a7aadaacd7.jpeg" alt="a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/e23c1182-4f24-4de9-88c4-3e9b6a655022.jpeg" alt="ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7015</link><guid isPermaLink="true">https://lcz.me/post/7015</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Tue, 16 Jun 2026 03:48:52 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Tue, 16 Jun 2026 02:06:19 GMT]]></title><description><![CDATA[<p dir="auto">“--swa-full 等参数，完美适配了这种架构<br />
。社区测试表明，在重新评估 Qwen3.6-27B 时，开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题”</p>
<p dir="auto">很好的信息，如果有对应的信源引用地址就更好了。</p>
]]></description><link>https://lcz.me/post/7008</link><guid isPermaLink="true">https://lcz.me/post/7008</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 16 Jun 2026 02:06:19 GMT</pubDate></item><item><title><![CDATA[Reply to 全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论） on Tue, 16 Jun 2026 02:15:36 GMT]]></title><description><![CDATA[<p dir="auto">上面所用的参数.</p>
<pre><code>   killall llama3-server 2&gt;/dev/null; sleep 3
     killall llama-server 2&gt;/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/model3/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model3/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model2/Qwen3.6-27B-MTP-MoQ-4.85.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --flash-attn on \
      --cache-ram 0 \
      --no-host \
      --jinja \
      --reasoning off \
      --temp 0.6 --top-k 20 --top-p 0.96 --min-p 0.01
</code></pre>
<p dir="auto">完美契合 Qwen3.6 的混合架构<br />
Qwen3.6 系列本身采用了混合注意力机制。llama.cpp 近期通过 --swa-full 等参数，完美适配了这种架构<br />
。社区测试表明，在重新评估 Qwen3.6-27B 时，开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题<br />
补充一下,看增加这个参数有没有好效果,这个参数在beellama上无效,可能是千问自己幻想的.抱歉了.</p>
]]></description><link>https://lcz.me/post/7003</link><guid isPermaLink="true">https://lcz.me/post/7003</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Tue, 16 Jun 2026 02:15:36 GMT</pubDate></item></channel></rss>