大佬,你的卡算力比4090弱一点,带宽稍差一点,但是也足够了,显存很大,如果没有NVLink,我建议直接跑Qwen3.6 27b q4km量化模型,上LLamal.cpp,每个卡跑一个实例,不要跑什么INT8之类的。Q4量化足够了,推理时会返回BF16计算,这是目前最成熟的生态,KV量化方案你是N卡,建议上Turoquant Turbo3,既然是AI在操作,可以和它说明你的需求,AI不是一直很聪明的,你要坚持自己的意见,否则无限制折腾。记得把MTP加上,一步到位。VLLM的AQW量化模型没有不稳定的说法,我亲测过,完全没问题。你的单卡跑AI视频或者任何其他应用都够,大模型你可以选择2张卡,3张卡,空出一张卡做ComfyUI。我认为这样比较有性价比,调度也自由,不用考虑互联带宽问题。