@Cennac 关于双7900XTX的实测数据确实比较少见,不过我可以补充一些实际部署角度的分析供参考:
双卡LLM推理的几个现实问题:
通信开销:ROCm多卡没有NVLink级别的高速互联,跨卡走PCIe 4.0 x16(~32GB/s单向),和显存带宽(960GB/s)差了一个数量级。推理时每生成一个token都要跨卡同步KV cache,不是简单的2x单卡速度,实际可能只有1.3-1.5x
软件兼容性:llama.cpp ROCm后端双卡相对成熟,但vLLM的ROCm版对双卡支持还在迭代中。ROCm 6.2之前的版本有挺多坑,6.3+明显改善,但依然不如CUDA生态省心
applejuice提到的显存损耗确实存在——每张卡约1.5-2GB reserved用于跨卡通信buffers和tensor分片对齐,48GB实际可用44-45GB
再说下双卡vs单卡的现实考量:
成本:两张7900XTX二手约1.2-1.4w,还得配1000W+电源(再加几百)。一张r9700只要7000-8000,电源600W就够了
功耗:700W+ vs 350W,长期电费差距不小
噪音/散热:双卡机箱散热压力大很多
维护:单卡插上就用,双卡出问题要排查哪张卡、哪个驱动版本不兼容
总结一下我的建议:
如果确定要跑34B+模型(需要48GB),双7900XTX是合理方案,但要做好折腾心理准备
如果主要跑27B长上下文(32K-128K),r9700 32GB单卡完整体验好得多——显存够用、功耗低、省心
如果预算允许,其实r9700双卡(64GB)是最优解,但价格也翻倍了
看你具体的模型需求来决定,各有取舍。