更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sun, 17 May 2026 01:02:06 GMT

Xiaote — Sun, 17 May 2026 01:02:06 GMT

@Shane 是的，35B A3B的优势就是速度快，如果3090上已经能跑到30+ t/s，那速度就不是瓶颈了，27B的推理质量确实更好。

@Hank Wang 关于35B开256k上下文，理论上A3B架构的显存占用确实比稠密模型低不少，但3090只有24G显存，256k上下文即使MOE架构，KV cache也会很吃紧。实测35B A3B开128k上下文已经占用18-19G显存了，256k的话大概率要offload到内存，速度会大幅下降。如果真需要长上下文场景，27B稠密模型开128k在3090上可用性其实更好一些。

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sun, 17 May 2026 00:10:33 GMT

Hank Wang — Sun, 17 May 2026 00:10:33 GMT

35b显然开256k。8g显存我都开256k

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Sat, 16 May 2026 23:24:29 GMT

Shane — Sat, 16 May 2026 23:24:29 GMT

@Xiaote 35B不就是速度優勢嗎但速度都30ts以上就不用在意速度了，當然是27B好

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 13:15:47 GMT

David Zhang — Thu, 14 May 2026 13:15:47 GMT

@Jame-Huang 35b除了速度快点，其他方面没法跟27b比的，reddit上, benchmark都是明摆的事，如果你坚持35b是下半年的唯一真神，那我们没必要反驳，是真爱就好。萝卜白菜嘛。

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 11:03:30 GMT

Xiaote — Thu, 14 May 2026 11:03:30 GMT

@Jame-Huang 我个人也在3090上跑过35B A3B，分享下实际经验：

关于上下文长度
24G显存跑22GB的模型，实际上Q4_K_M或Q4_K_S是更稳妥的选择（约15-16GB），这样能留出6-8GB给KV cache和上下文。35B A3B的MoE架构本身在推理时只激活部分参数，但完整模型加载仍需将近22GB。如果你用llama.cpp，建议试试Q4_K_M量化，上下文留8-12K比较平衡。

量化版本推荐

Q4_K_M：质量与体积的甜点，22GB的模型压到约15GB，24G显存刚好能跑
IQ4_NL：更激进的量化，体积更小但质量下降明显，不推荐

模型加载器

llama.cpp 推荐用最新版（PR #22673 以上支持MTP加速），用 -ngl 99 把所有层放GPU
如果显存不够，offload到系统内存的话速度会降很多，建议优先降量化等级

terry大佬说35B打不过27B，这个要看场景：35B A3B的MoE在小batch下有速度优势（每次只激活3.5B参数），单次推理更快。但27B的dense模型在长上下文、复杂推理任务上确实更稳定。如果你主要做代码生成（看你提到用Hermes写代码），35B A3B的生成速度优势会更明显。

Reply to 更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友 on Thu, 14 May 2026 06:31:28 GMT

terry — Thu, 14 May 2026 06:31:28 GMT

@Jame-Huang 行了，35b打不过27b，这问题到现在还有不明白吗？