<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友]]></title><description><![CDATA[<p dir="auto">从5-1之后就在折腾本地方案,<br />
公司的事情搞得我一天只睡2-3个小时.太累了....<br />
最近一星期研究让hermes帮我写代码,<br />
今天中午看了个富佬 的折腾显卡 视频,悟到了些东西,还只是想到,马上问AI就有了新收获.</p>
<p dir="auto">我就想问QWEN 3.6 35B A3B在3090 24G上面 跑的话,上下文留多少合适?<br />
什么量化版本以及模型加载器能 取得体积 速度 质量的均衡?</p>
<p dir="auto">另外大胆预测一下对平民玩家来说 这个<strong>Qwen 3.6 35B A3B</strong>开源模型应该是今年下半年唯一的真神.<br />
它的真正威力,懂的应该都懂(如果不懂可以抖音疯狂搜索就知道了)</p>
<p dir="auto">再有:之前发的吹爆豆包的,我收回.... (它那命令能跑完全是因为它注释了之后把命令给我截断了70%多 ,后来我才发现...)</p>
]]></description><link>https://lcz.me/topic/136/更新一下近况-再请教一下懂qwen-3.6-35b-a3b的3090卡友</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 07:04:27 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/136.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 14 May 2026 04:44:30 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sun, 17 May 2026 01:02:06 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/shane" aria-label="Profile: Shane">@<bdi>Shane</bdi></a> 是的，35B A3B的优势就是速度快，如果3090上已经能跑到30+ t/s，那速度就不是瓶颈了，27B的推理质量确实更好。</p>
<p dir="auto">@Hank Wang 关于35B开256k上下文，理论上A3B架构的显存占用确实比稠密模型低不少，但3090只有24G显存，256k上下文即使MOE架构，KV cache也会很吃紧。实测35B A3B开128k上下文已经占用18-19G显存了，256k的话大概率要offload到内存，速度会大幅下降。如果真需要长上下文场景，27B稠密模型开128k在3090上可用性其实更好一些。</p>
]]></description><link>https://lcz.me/post/2045</link><guid isPermaLink="true">https://lcz.me/post/2045</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sun, 17 May 2026 01:02:06 GMT</pubDate></item><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sun, 17 May 2026 00:10:33 GMT]]></title><description><![CDATA[<p dir="auto">35b显然开256k。8g显存我都开256k</p>
]]></description><link>https://lcz.me/post/2034</link><guid isPermaLink="true">https://lcz.me/post/2034</guid><dc:creator><![CDATA[Hank Wang]]></dc:creator><pubDate>Sun, 17 May 2026 00:10:33 GMT</pubDate></item><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sat, 16 May 2026 23:24:29 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/xiaote" aria-label="Profile: Xiaote">@<bdi>Xiaote</bdi></a> 35B不就是速度優勢嗎 但速度都30ts以上就不用在意速度了，當然是27B好</p>
]]></description><link>https://lcz.me/post/2029</link><guid isPermaLink="true">https://lcz.me/post/2029</guid><dc:creator><![CDATA[Shane]]></dc:creator><pubDate>Sat, 16 May 2026 23:24:29 GMT</pubDate></item><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 13:15:47 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> 35b除了速度快点，其他方面没法跟27b比的，reddit上, benchmark都是明摆的事，如果你坚持35b是下半年的唯一真神，那我们没必要反驳，是真爱就好。萝卜白菜嘛。</p>
]]></description><link>https://lcz.me/post/1598</link><guid isPermaLink="true">https://lcz.me/post/1598</guid><dc:creator><![CDATA[David Zhang]]></dc:creator><pubDate>Thu, 14 May 2026 13:15:47 GMT</pubDate></item><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 11:03:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> 我个人也在3090上跑过35B A3B，分享下实际经验：</p>
<p dir="auto"><strong>关于上下文长度</strong><br />
24G显存跑22GB的模型，实际上Q4_K_M或Q4_K_S是更稳妥的选择（约15-16GB），这样能留出6-8GB给KV cache和上下文。35B A3B的MoE架构本身在推理时只激活部分参数，但完整模型加载仍需将近22GB。如果你用llama.cpp，建议试试Q4_K_M量化，上下文留8-12K比较平衡。</p>
<p dir="auto"><strong>量化版本推荐</strong></p>
<ul>
<li>Q4_K_M：质量与体积的甜点，22GB的模型压到约15GB，24G显存刚好能跑</li>
<li>IQ4_NL：更激进的量化，体积更小但质量下降明显，不推荐</li>
</ul>
<p dir="auto"><strong>模型加载器</strong></p>
<ul>
<li>llama.cpp 推荐用最新版（PR #22673 以上支持MTP加速），用 <code>-ngl 99</code> 把所有层放GPU</li>
<li>如果显存不够，offload到系统内存的话速度会降很多，建议优先降量化等级</li>
</ul>
<p dir="auto"><strong>terry大佬说35B打不过27B</strong>，这个要看场景：35B A3B的MoE在小batch下有速度优势（每次只激活3.5B参数），单次推理更快。但27B的dense模型在长上下文、复杂推理任务上确实更稳定。如果你主要做代码生成（看你提到用Hermes写代码），35B A3B的生成速度优势会更明显。</p>
]]></description><link>https://lcz.me/post/1573</link><guid isPermaLink="true">https://lcz.me/post/1573</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 14 May 2026 11:03:30 GMT</pubDate></item><item><title><![CDATA[Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 06:31:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a> 行了，35b打不过27b，这问题到现在还有不明白吗？</p>
]]></description><link>https://lcz.me/post/1540</link><guid isPermaLink="true">https://lcz.me/post/1540</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 14 May 2026 06:31:28 GMT</pubDate></item></channel></rss>