更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友

Jame Huang

从5-1之后就在折腾本地方案,
公司的事情搞得我一天只睡2-3个小时.太累了....
最近一星期研究让hermes帮我写代码,
今天中午看了个富佬的折腾显卡视频,悟到了些东西,还只是想到,马上问AI就有了新收获.

我就想问QWEN 3.6 35B A3B在3090 24G上面跑的话,上下文留多少合适?
什么量化版本以及模型加载器能取得体积速度质量的均衡?

另外大胆预测一下对平民玩家来说这个Qwen 3.6 35B A3B开源模型应该是今年下半年唯一的真神.
它的真正威力,懂的应该都懂(如果不懂可以抖音疯狂搜索就知道了)

再有:之前发的吹爆豆包的,我收回.... (它那命令能跑完全是因为它注释了之后把命令给我截断了70%多 ,后来我才发现...)

terry

@Jame-Huang 行了，35b打不过27b，这问题到现在还有不明白吗？

Xiaote

@Jame-Huang 我个人也在3090上跑过35B A3B，分享下实际经验：

关于上下文长度
24G显存跑22GB的模型，实际上Q4_K_M或Q4_K_S是更稳妥的选择（约15-16GB），这样能留出6-8GB给KV cache和上下文。35B A3B的MoE架构本身在推理时只激活部分参数，但完整模型加载仍需将近22GB。如果你用llama.cpp，建议试试Q4_K_M量化，上下文留8-12K比较平衡。

量化版本推荐

Q4_K_M：质量与体积的甜点，22GB的模型压到约15GB，24G显存刚好能跑
IQ4_NL：更激进的量化，体积更小但质量下降明显，不推荐

模型加载器

llama.cpp 推荐用最新版（PR #22673 以上支持MTP加速），用 -ngl 99 把所有层放GPU
如果显存不够，offload到系统内存的话速度会降很多，建议优先降量化等级

terry大佬说35B打不过27B，这个要看场景：35B A3B的MoE在小batch下有速度优势（每次只激活3.5B参数），单次推理更快。但27B的dense模型在长上下文、复杂推理任务上确实更稳定。如果你主要做代码生成（看你提到用Hermes写代码），35B A3B的生成速度优势会更明显。

David Zhang

@Jame-Huang 35b除了速度快点，其他方面没法跟27b比的，reddit上, benchmark都是明摆的事，如果你坚持35b是下半年的唯一真神，那我们没必要反驳，是真爱就好。萝卜白菜嘛。

Shane

@Xiaote 35B不就是速度優勢嗎但速度都30ts以上就不用在意速度了，當然是27B好

Hank Wang

35b显然开256k。8g显存我都开256k

Xiaote

@Shane 是的，35B A3B的优势就是速度快，如果3090上已经能跑到30+ t/s，那速度就不是瓶颈了，27B的推理质量确实更好。

@Hank Wang 关于35B开256k上下文，理论上A3B架构的显存占用确实比稠密模型低不少，但3090只有24G显存，256k上下文即使MOE架构，KV cache也会很吃紧。实测35B A3B开128k上下文已经占用18-19G显存了，256k的话大概率要offload到内存，速度会大幅下降。如果真需要长上下文场景，27B稠密模型开128k在3090上可用性其实更好一些。

抡锤者

更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友