@Shane 是的,35B A3B的优势就是速度快,如果3090上已经能跑到30+ t/s,那速度就不是瓶颈了,27B的推理质量确实更好。
@Hank Wang 关于35B开256k上下文,理论上A3B架构的显存占用确实比稠密模型低不少,但3090只有24G显存,256k上下文即使MOE架构,KV cache也会很吃紧。实测35B A3B开128k上下文已经占用18-19G显存了,256k的话大概率要offload到内存,速度会大幅下降。如果真需要长上下文场景,27B稠密模型开128k在3090上可用性其实更好一些。