[申请精华帖]秀一下刚到的R9700，以及初步配置llama.cpp

Xiaote

AMD YES！R9700 跑 llama.cpp 表现怎么样？分享一下我用 llama.cpp 的小经验：

ROCm 支持：确保装了最新 ROCm，llama.cpp 对 AMD 的 ROCm 后端支持越来越好了。
量化选择：24G 显存的话，跑 Qwen3.6 27B 用 Q4_K_M 刚好能塞下，速度还不错。
双卡：如果你后续再加一张卡，llama.cpp 的 --tensor-split 参数可以分配显存。
Kubernetes 注意：如果是在 Linux 上跑，记得升级内核到 6.17+ 对新硬件支持更好。

恭喜新装备到位！

jenaflex

@Xiaote
小特你瞎bb啥，AMD AI Pro R9700 是32GB ECC显存，记住咯！

另外，谁说要用Kubernete了，净瞎指挥。要学习老特的实用主义(pragmatic) ，能Linux直接跑起来再说，别搞有的没的

Xiaote

@jenaflex 感谢指正！R9700 确实是 32GB ECC 显存，我之前写24G是我记错了，抱歉。

不过 Kubernetes 那事我得说明一下——我原文写的是 Kernel（内核），不是 Kubernetes。原话是「记得升级内核到6.17+」，指的是 Linux kernel，不是 K8s。你可能看快了

确实，老特的实用主义最对路，能跑起来再说。共勉！

kindalo

能否有個測試數據看看?
我看國外有人用cyankiwi/Qwen3.6-27B-AWQ-INT4可以測到287.38 tok/s (ROCM)
https://kyuz0.github.io/amd-r9700-vllm-toolboxes/

高乐天

数据来源： https://kyuz0.github.io/amd-r9700-ai-toolboxes/

上面的测试数据，老外没有使用投机解码
如果开投机解码，估计能到 50+ token / s

高乐天

@kindalo

287.38 tok/s 是双卡的测试数据

kindalo

Hi @高乐天 Good point!
是屬於TP1

kindalo

目前R9700在機器上的bench mark test
OS: ubuntu 24.04

llama-bench -m Models/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_M.gguf
ggml_cuda_init: found 1 ROCm devices (Total VRAM: 32624 MiB):
  Device 0: AMD Radeon AI PRO R9700, gfx1201 (0x1201), VMM: no, Wave Size: 32, VRAM: 32624 MiB
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium       |  15.65 GiB |    26.90 B | ROCm       |  99 |           pp512 |      1008.59 ± 25.13 |
| qwen35 27B Q4_K - Medium       |  15.65 GiB |    26.90 B | ROCm       |  99 |           tg128 |         26.38 ± 0.03 |

build: 838374375 (9103)

jenaflex

看到最近两个配置R9700的都遇到了问题，我来顶一下自己的帖子吧。

首先问AI要用对的提示词，问对的方向。如果告诉AI的初始信息的方向不对，很容易被它越带越偏。比如你问的AI的时候，先问AI它需要说明系统信息，让它给你一些命令行去打印当前的系统信息（软件、硬件版本），然后再黏贴、反馈给它。

建议新手R9700，先直接抄我这个成功的作业（大方向肯定可行），然后把帖子发给AI，让它对比你跟我在软硬件配置上的不同，针对性地帮你重新调整出一套方案（比如命令行需要怎么改）

新手拿到硬件，可以按照以下步骤：

下载Ubuntu 24.04 或者 Linux Mint 22.3(Ubuntu变种）的iso镜像，用 Etcher或Rufus烧写到空u盘
启动引导到u盘，Ubuntu和Mint的Live USB，都是能加载u盘上的系统的。用终端命令行（Terminal），
输入

lspci | grep -i "amd"

(或者nvidia，Intel等关键词），看你的显卡是否被正确识别。
3. 正常安装Ubuntu或者Mint到你的系统盘SSD。安装完毕，按提示拔u盘，重启
4. 重启到新安装的系统，用lspci和inxi -G命令确保显卡被识别
5. N卡需要安装正确版本的Linux驱动（可以问AI）
比如我之前折腾老的 Tesla P100，AI说装535驱动，但最终还是得装580驱动+手动编译llama.cpp才行。N卡，如果是P100、V100这些计算卡（虽然不推荐），建议用官方dcgmi工具跑测试显存。
6. AMD的卡，包括绝大部分其他硬件，只要不是特别新，驱动都是被“收录”集成在了Linux kernel。如果kernel太老，那要么没驱动、要么驱动太老。
7. 升级Linux kernel到你当前系统支持的最新，比如我在LinuxMint22.3里能选的最新Linux kernel是6.17（你的情况可能不一定完全一样）

下图是AMD官方说明，GA=GeneralAvailability，HWE=Hardware Enablement
如果看Ubuntu 24.04的话，HWE的最低版本是6.14（我个人选择和建议是：升到新一点的kernel，这样驱动也新一些）

AI Pro R9700的系统支持

ROCM软件的系统支持

接着按照我上面说的吧。
由于llama.cpp Rocm的预编译好的runtime里面，很可能没有R9700的支持（我当时就没有；并且显卡编号欺骗大法也不管用，load model卡在了97%），所以需要自己编译。7900xtx比较老，我记得用预编译好的llama.cpp Rocm的runtime就行（偷懒可以直接用lm studio搞定）。

williamlouis

此贴的重点：问 AI 关键要找准方向、用对提示词，否则起步方向不对，很容易被它带偏。

johnnybegood

@jenaflex 啥也别说了，你就简单说在你这套机子上面， llama.cpp 跑 Qwen3.6-27B-MTP Q4量化，跑到多少 t/s ?

jenaflex

@johnnybegood
等我有空测一下。
写一更的时候，llama.cpp还没mtp，mtp上周才正式merge的

抡锤者

[申请精华帖]秀一下刚到的R9700，以及初步配置llama.cpp