雙 RX 7900 XTX + Ubuntu 24.04 + ROCm 6.3 實戰報告

Chan Ivan

硬件：

主板：HUANANZHI X99-CD3 GAMING（X99）
CPU：Xeon E5-2666 v3（10C/20T）
RAM：128GB DDR3 ECC @ 1600
GPU：2× RX 7900 XTX（PULSE，各 24GB）
儲存：NVMe 1.9TB（Win + Ubuntu + Shared）
OS：Ubuntu 24.04.4 / kernel 6.17.0

軟件：

ROCm 6.3 / Python 3.12.3
llama.cpp b9198（自編譯 ROCm）
ComfyUI + ComfyUI-Manager
Shell scripts 管理全部操作（~/bin/）

LLM Benchmark（Qwen3.6-27B Q4_K_M）：

單卡

• 配置: 單卡

• Context: 8K

• Token Gen: 27.2 t/s

單卡

• 配置: 單卡

• Context: 128K

• Token Gen: 27.0 t/s

雙卡 tensor-split

• 配置: 雙卡 tensor-split

• Context: 8K

• Token Gen: 19.8 t/s

雙卡 tensor-split

• 配置: 雙卡 tensor-split

• Context: 128K

• Token Gen: 21.4 t/s

→ 單卡打贏雙卡 tensor-split！27B Q4_K_M fit 入 24GB VRAM 單卡已經最快。雙卡只係 >64K context 先用得著。

投機解碼：
Qwen3.6 用 M-RoPE，同 llama.cpp 投機解碼唔相容（全部 spec type 失敗，accept rate < 13%）。Skip，27 t/s 已經夠快。

ComfyUI 雙 Instance：
兩張卡各一個獨立 ComfyUI（port 8188/8189），systemd 管理自動開機。

Flux.1 dev：78.9s（雙 instance）vs 73.4s（tensor-split）
LTX Video：13.5s（雙 instance）vs 22.9s（tensor-split）

→ 雙 instance 整體完勝，尤其 LTX 快接近一倍，仲可以同時跑兩個 workflow。

ROCm 6.3 tips：

記得 delete blacklist-amdgpu.conf
唔使 HSA_OVERRIDE_GFX_VERSION（gfx1100 原生支援）
tensor-split 用 --tensor-split 24,24（absolute GiB）
ROCm 6.3 對 RX 7900 XTX 支援完善

terry

非常不错的帖子，再多补充点，空出位置来给你置顶！

David Zhang

@Chan-Ivan 估计是两张显卡的 pcie 带宽瓶颈，如果3.0 x16, 向量并行，我猜应该不止这个速度，reddit上也有人跑过双xtx。

terry

说实话哥们能把这张肥卡用两张放到一个机箱里我也挺震惊的，我的主板除非用延长线，否则做不到。

fenky0304

感謝您的無法分享!!! ^_^

Chan Ivan

@terry 遲些會補充的

Chan Ivan

@terry 说:

说实话哥们能把这张肥卡用两张放到一个机箱里我也挺震惊的，我的主板除非用延长线，否则做不到。

雖然是同一個機箱內，但我用了延長線把下面的卡放在底部，把下面卡的風扇對住底部的風口，墊高了一點

Chan Ivan

@David-Zhang 謝謝，這個我做吓研究

Chan Ivan

@fenky0304 純粹為了興趣

John Ato

--split-mode tensor,速度有明显提升，前提是cpu有双直连 pcie4.0x8通道
,

John Ato

单卡是vulkan更快(其实也有点不稳定,尤其prefill),双卡肯定是rocm更稳

stakira

rocm还是慢，我也把单卡7900 xtx移到了Linux机器上，rocm 只能跑到28，vulkan用自带驱动只有19，完全卸载驱动再安装官方驱动后vulkan稳定35。AMD驱动这个事还是挺讨厌的，实际上之前Windows上能跑到40上下。

John Ato

Qwen3.6-27B-UD-Q4_K_XL.gguf ,ubuntu24.04 vulkan 单卡 7900 xtx能到 50多的

David Zhang

@John-Ato 对，这数量级的decoding速度让人着迷。

John Ato

此主題已被删除！

John Ato

是的，双卡7900xtx也蛮好用的,能跑Q8,mtp后速度起飞,而且上下文可以打满256k,这样的生产力还是挺迷人的，目前的方案就已经足够做产品了。前提是要自己组硬件,有一定动手能力。我喜欢听蓝宝石显卡全力运作后风扇的"滋滋"声。

stakira

@John-Ato 是开mtp还是不开？

John Ato

mtp是必须要开的,然后用最新版本7.2.3rocm,自己编译最新版本llama.cpp

John Ato

,生产力相当可以了

terry

讲实话，这个方案性价比极高，因为既可以大模型，又可以ComfyUI，生产力拉满了，关键是安静，蓝宝石的这个白金版我非常喜欢，做工绝对优秀，钱都花在了刀刃上。

抡锤者

雙 RX 7900 XTX + Ubuntu 24.04 + ROCm 6.3 實戰報告