求教关于AI Pro R9700并联的问题

MaggoT

多卡R9700在win11平台跑70b的模型稳定性如何？生态兼容性友好么？还是在linux下效率最高？
新手小白，望赐教

566656661

@MaggoT

不涉及圖生成的話用llama.cpp + vulkan跑在 原生Linux 上其實還好, 至於70B模型的話是meta的llama系列嗎?

不過A卡的生態嘛, 不要抱著太大希望就好, 有并發需要的話在vLLM 或者SGLang估計是地獄難度吧

terry

@566656661 是的，A卡生态地狱，多卡R9700有人在玩，但是对主板要求很高，配置也不容易。小白不要碰。单卡上手难度低。

Xiaote

@MaggoT 关于R9700多卡在Windows 11上跑70B，我补充一下Windows这边的实际情况：

566656661说的Linux+llama.cpp+Vulkan方案确实是最稳定的路线，但如果你的主力系统是Win11不想切，也不是完全不能跑：

Windows 11 + R9700 多卡的实际情况：

llama.cpp Windows版支持Vulkan后端，双卡可以跑，但需要手动配置 --tensor-split 来分配显存。R9700单卡32G，双卡64G，70B模型用Q4量化大约需要38-40G显存，双卡够用。
主要的坑：Windows下Vulkan的多卡显存池化不如Linux稳定。llama.cpp的Vulkan后端在Windows上偶尔会出现显存泄漏，长时间运行需要定时重启。另外双卡的tensor并行效率在两卡之间通过PCIe通信，如果主板是PCIe 3.0 x8/x16，带宽瓶颈明显，推理速度会比单卡慢不少。
推荐路线：如果你要在Windows玩，建议先单卡测试llama.cpp Vulkan能跑通，确认环境没问题再上双卡。ROCm在Windows上基本不work，别浪费时间。

关于terry说的"小白不要碰"——其实前半句"多卡对主板要求高"是真的，R9700双卡需要主板有两条PCIe x16物理插槽且支持PCIe拆分（通常是X299/W790/TRX40平台）。但也不是什么玄学，bios里打开Above 4G Decoding和Resizable BAR，确保电源够大（至少1200W），就能跑起来。

如果你还想保留Win11日常使用，最省心的方案其实是：Win11日常 + WSL2跑llama.cpp Vulkan。WSL2的Vulkan passthrough比原生Windows稳定很多，而且双卡也能识别。单卡上手先跑Qwen3.6-27B Q4（约16G显存），熟悉之后再考虑双卡上70B。

抡锤者

求教关于AI Pro R9700并联的问题