新手入坑 R9700 真的行嗎？

rolex lo

@kop-wang 有想過直上mbp 16 m5 max 算....
但看過測試數據，還是很普通....

566656661

可以這樣說, AMD在原生的Linux内核會比WSL 2來得好, 畢竟WSL 2再怎麽貼近Linux 内核, 它的本質還是Hyper V, 不多不少都會有影響

566656661

$: llama-bench-vulkan   -m 'Qwen3.6-27B-UD-Q4_K_XL.gguf' 
WARNING: radv is not a conformant Vulkan implementation, testing use only.
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon AI PRO R9700 (RADV GFX1201) (radv) | uma: 0 | fp16: 1 | bf16: 1 | warp size: 64 | shared memory: 65536 | int dot: 1 | matrix cores: KHR_coopmat
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           pp512 |       1050.13 ± 0.54 |
| qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           tg128 |         31.26 ± 0.01 |

build: 97895129e (8863)

運行參數

llama-server-vulkan   -m '/Qwen3.6-27B-UD-Q4_K_XL.gguf'   --mmproj '/mmproj-BF16(3).gguf'  -np 1 -ngl 99   --temp 0.6   --top-p 0.95   --top-k 20   --min-p 0.00 --presence_penalty 0.00 --jinja  --chat-template-kwargs '{"preserve_thinking": true}' -ub 2048 -fa 1 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48 --host 0.0.0.0   --port 8180

--- Prompt Processing (PPS) Statistics ---
Mean:       549.60 t/s
Median:     519.19 t/s
P95:        936.60 t/s
StdDev:     240.80 (Stability)
Range:    64.18 - 1015.91 t/s

--- Token Generation (Tok/s) Statistics ---
Mean:        28.80 t/s
Median:      28.20 t/s
P95:         45.34 t/s
StdDev:       6.78 (Stability)
Range:    16.49 - 53.63   t/s

Total Tokens Generated: 87840
$:~/Documents/llama_perf$ python3 parse_performance_stats_full.py

== Prompt Processing (PPS) Analysis ==
Effective Avg:     549.60 t/s (Token-Weighted)
Median (P50):      519.19 t/s
Tail (P99):        958.31 t/s
Stability(CV):       43.8% (JITTERY)
Skewness:            0.04 (Symmetric)

== Token Generation (Tok/s) Analysis ==
Effective Avg:    1697.20 t/s (Token-Weighted)
Median (P50):       28.20 t/s
Tail (P99):         51.39 t/s
Stability(CV):       23.5% (JITTERY)
Skewness:            1.40 (Burst Heavy)

看上去至少比vLLM好, 不過真的就只有一點

kos or

此主題已被删除！

rolex lo

那如果上 blackwell 4500 32GB vram 對比 R9700 來說
是否值得？差多嗎？

CS6

@rolex-lo coding 你還是訂 codex 或是 claude code 吧！沒比較貴，目前我 R9700 單卡 coding 體驗很糟

rolex lo

@CS6 工作上要求是邏輯思考工作流程及方式以及方法從而尋找問題當中要配合閱讀日誌和提供script 等等所以上下文比較大需要。

那請問你是用他來寫code嗎？

CS6

@rolex-lo
我是 opencode 搭配 liteLLM 跑 gamma4 / Qwne 3.6 3.7
主力是 codex max ＋ claude code max 200 ，我的工作是移動端全棧開發＋LLM devops
我平常常會把大量的裝置端 log直接喂進去做分析，也會讓AI直接去做E2E測試
還有配合 BDD 做測試與開發

rolex lo

@CS6 果然是大神那r9700對你來說真的雞肋,你cotext 開到多少>?

kos or

此主題已被删除！

rolex lo

@566656661 看了又看那如果上 blackwell 4500 32GB vram 對比 R9700 來說差多嗎？除了價錢外...

566656661

@rolex-lo

我現在就是用RTX Pro 4500, 也許晚上我發個文?

rolex lo

@566656661 謝過大哥. 都想了解一倍價錢, 會否比r9700好一半,,,

CS6

@566656661 我也很期待，也許我們可以來測同一個指標？

CS6

@rolex-lo 你的底座PCI 5.0 是 x16還是 x8 ?
R9700 跟高階Ｎ卡電源接頭不同喔！

566656661

@CS6

https://lcz.me/topic/431/对-m5-max-跑本地大模型有点失望/28

我在這裏簡單用llama benchy測試了一下, 可以參考看看

5000 Pro, 6000 Pro那些應該只會更快不會更慢

rolex lo

@CS6 我的版本是GTI 15 285h 是 Pci 5.0 x8
底座有兩個 8pin , 兩條電線, 可以轉8+6

https://www.notebookcheck-cn.com/Beelink-eGPU-OCuLink.882436.0.html

抡锤者

新手入坑 R9700 真的行嗎？