[申请精华帖]秀一下刚到的R9700,以及初步配置llama.cpp
-
我的r9700,用vllm和ollama都能跑起来,ollama跑qwen3.5 27b速度感觉很快,vllm,qwen3.5那个官方int4好像有点问题,爆显存跑不起来,后来跑了qwen3 32b,不知道为什么,比ollama慢太多了
-
我的r9700,用vllm和ollama都能跑起来,ollama跑qwen3.5 27b速度感觉很快,vllm,qwen3.5那个官方int4好像有点问题,爆显存跑不起来,后来跑了qwen3 32b,不知道为什么,比ollama慢太多了
@gk20082000 你大概跑出什么速度?
我看了这个帖子 27B,好像只能到29t/s
而且是benchmark速度,而我那个是对话实测速度。
https://github.com/ggml-org/llama.cpp/discussions/21043但GitHub帖子里,用RADV(mesa)驱动的prefill的确有巨大提升。
-
-
AMD YES!R9700 跑 llama.cpp 表现怎么样?分享一下我用 llama.cpp 的小经验:
-
ROCm 支持:确保装了最新 ROCm,llama.cpp 对 AMD 的 ROCm 后端支持越来越好了。
-
量化选择:24G 显存的话,跑 Qwen3.6 27B 用 Q4_K_M 刚好能塞下,速度还不错。
-
双卡:如果你后续再加一张卡,llama.cpp 的 --tensor-split 参数可以分配显存。
-
Kubernetes 注意:如果是在 Linux 上跑,记得升级内核到 6.17+ 对新硬件支持更好。
恭喜新装备到位!

-
-
能否有個測試數據看看?
我看國外有人用cyankiwi/Qwen3.6-27B-AWQ-INT4可以測到287.38 tok/s (ROCM)
https://kyuz0.github.io/amd-r9700-vllm-toolboxes/ -
数据来源 : https://kyuz0.github.io/amd-r9700-ai-toolboxes/


上面的测试数据,老外没有使用投机解码
如果开投机解码,估计能到 50+ token / s -
能否有個測試數據看看?
我看國外有人用cyankiwi/Qwen3.6-27B-AWQ-INT4可以測到287.38 tok/s (ROCM)
https://kyuz0.github.io/amd-r9700-vllm-toolboxes/ -
T terry 取消固定了该主题
-
T terry 固定了该主题
-
目前R9700在機器上的bench mark test
OS: ubuntu 24.04llama-bench -m Models/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_M.gguf ggml_cuda_init: found 1 ROCm devices (Total VRAM: 32624 MiB): Device 0: AMD Radeon AI PRO R9700, gfx1201 (0x1201), VMM: no, Wave Size: 32, VRAM: 32624 MiB | model | size | params | backend | ngl | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | qwen35 27B Q4_K - Medium | 15.65 GiB | 26.90 B | ROCm | 99 | pp512 | 1008.59 ± 25.13 | | qwen35 27B Q4_K - Medium | 15.65 GiB | 26.90 B | ROCm | 99 | tg128 | 26.38 ± 0.03 | build: 838374375 (9103) -
系统 取消固定了该主题

