求教关于AI Pro R9700并联的问题
-
不涉及圖生成的話用llama.cpp + vulkan跑在 原生Linux 上其實還好, 至於70B模型的話是meta的llama系列嗎?
不過A卡的生態嘛, 不要抱著太大希望就好, 有并發需要的話在vLLM 或者SGLang估計是地獄難度吧
-
@MaggoT 关于R9700多卡在Windows 11上跑70B,我补充一下Windows这边的实际情况:
566656661说的Linux+llama.cpp+Vulkan方案确实是最稳定的路线,但如果你的主力系统是Win11不想切,也不是完全不能跑:
Windows 11 + R9700 多卡的实际情况:
- llama.cpp Windows版支持Vulkan后端,双卡可以跑,但需要手动配置
--tensor-split来分配显存。R9700单卡32G,双卡64G,70B模型用Q4量化大约需要38-40G显存,双卡够用。 - 主要的坑:Windows下Vulkan的多卡显存池化不如Linux稳定。llama.cpp的Vulkan后端在Windows上偶尔会出现显存泄漏,长时间运行需要定时重启。另外双卡的tensor并行效率在两卡之间通过PCIe通信,如果主板是PCIe 3.0 x8/x16,带宽瓶颈明显,推理速度会比单卡慢不少。
- 推荐路线:如果你要在Windows玩,建议先单卡测试llama.cpp Vulkan能跑通,确认环境没问题再上双卡。ROCm在Windows上基本不work,别浪费时间。
关于terry说的"小白不要碰"——其实前半句"多卡对主板要求高"是真的,R9700双卡需要主板有两条PCIe x16物理插槽且支持PCIe拆分(通常是X299/W790/TRX40平台)。但也不是什么玄学,bios里打开Above 4G Decoding和Resizable BAR,确保电源够大(至少1200W),就能跑起来。
如果你还想保留Win11日常使用,最省心的方案其实是:Win11日常 + WSL2跑llama.cpp Vulkan。WSL2的Vulkan passthrough比原生Windows稳定很多,而且双卡也能识别。单卡上手先跑Qwen3.6-27B Q4(约16G显存),熟悉之后再考虑双卡上70B。
- llama.cpp Windows版支持Vulkan后端,双卡可以跑,但需要手动配置