7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 16:35:52 GMT

abaalei — Fri, 19 Jun 2026 16:35:52 GMT

@imbiplaza-ASUS 你看我发文就知道了，第一篇文大概是我开始折腾的第二天，到今天都还在折腾，哈哈哈，不过确实好玩

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 13:31:41 GMT

Xiaote — Fri, 19 Jun 2026 13:31:41 GMT

@imbiplaza-ASUS 你的纠结我理解。9700 Pro RM6900 vs RTX 4500 Pro RM16900，差了一倍多的价格，性能没差多少，确实让人犹豫。

我的看法是这样分场景判断：

如果你是做活赚钱的（接单、接项目、给客户交付），那一倍差价是值得的。为什么呢？因为你花在 ROCm/Vulkan 调试上的每1小时，换算成你的时薪可能就亏了好几百。我见过太多人为了省这几千块，结果花了几周在 ROCm 各种坑上（Triton不支持、SageAttention NaN、Flash Attention没有...），那点时间成本早就超过硬件差价了。RTX 4500 Pro 插上就能跑，省下的时间用来接单赚钱更划算。
如果你是纯折腾党/自用娱乐，那 9700 Pro 完全够用。ROCm 6.x + Vulkan 现在确实能跑大部分东西了（llama.cpp / ComfyUI / SD），虽然偶尔要踩坑，但折腾本身就是乐趣的一部分。而且 24G vs 32G 的显存差距在跑 70B 模型时确实很关键——9700 Pro 的 24G 跑 Qwen3-72B Q4 刚刚好，但你基本上没余量给 KV Cache了。
中间路线：如果预算在 1W-1.2W RM 级别，可以收一张二手 RTX 3090 24G（~4-5K RM），性能不差，CUDA生态完整，剩下的钱配个好平台。比 RTX 4500 Pro 便宜一半多，但 CUDA 的省心体验是一样的。

总结：RTX 4500 Pro 32G 确实是好东西（Blackwell + NVFP4 + 32G显存），但 RM16900 的定价摆明了是面向企业采购的。个人用的话，要么咬牙当投资（接单赚钱），要么收 3090 或者蹲 9700 Pro 等 ROCm 继续完善。

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 08:41:18 GMT

imbiplaza ASUS — Fri, 19 Jun 2026 08:41:18 GMT

@566656661 找到关键点了，原来把我的gpu 卸载拉满，可以从10/t 提升至18t/s

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 06:50:10 GMT

566656661 — Fri, 19 Jun 2026 06:50:10 GMT

@imbiplaza-ASUS

欸不對啊, 應該沒這麽少吧, 雖說引擎不對但是我跑在vllm也沒這麽差啊, 我現在已經在下載模型跟llama.cpp了

晚上出一下Post?

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 06:20:49 GMT

imbiplaza ASUS — Fri, 19 Jun 2026 06:20:49 GMT

含泪看着9700pro RM6900 vs RTX4500pro RM16900...

cuda好像也没有特别快到很离谱的程度，只是少了折腾，就必须付出多一倍的价格。。。

难道最终我只能花钱省事吗

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32126 MiB):
Device 0: NVIDIA RTX PRO 4500 Blackwell, compute capability 12.0, VMM: yes, VRAM: 32126 MiB

model	size	params	backend	ngl	fa	test	t/s
qwen35 27B Q5_K - Medium	18.65 GiB	26.90 B	CUDA	999	1	pp512	1751.21 ± 54.18
qwen35 27B Q5_K - Medium	18.65 GiB	26.90 B	CUDA	999	1	tg128	35.83 ± 0.02

build: dcad77cc3 (8933)

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 05:49:38 GMT

abaalei — Fri, 19 Jun 2026 05:49:38 GMT

@566656661 对的，刚刚又找到一个自己编译ROCm的项目，宣称“优化”掉MI300等对7900xtx无效的内容，现在正在玩，回头继续po文

Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 03:36:07 GMT

566656661 — Fri, 19 Jun 2026 03:36:07 GMT

~~省流: ROCm對比Vulkan就是負優化~~

不過認真說, 其實很少人會主動去用ROCm/HIP, 雖說潛力很大和能銜接上CUDA内核的Call, 但是AMD自己一來只依賴開源, 二來估計發展路綫不兼容, 所以基本上擺爛了

這樣下去估計三到四年就會被華爲的CANN給超過了吧, 畢竟華爲跟老黃一樣有自己掏錢養生態