跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 新手入坑 R9700 真的行嗎?

新手入坑 R9700 真的行嗎?

已定时 已固定 已锁定 已移动 AI硬件
26 帖子 6 发布者 171 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • lxbsL 在线
    lxbsL 在线
    lxbs
    编写于 最后由 编辑
    #3

    看运行环境。
    如果主要是跑推理模型驱动Hermes的话,R9700应该很轻松胜任。我的9700要到8月才能运到。
    不过我用16G的rtx A5000,跑qwen3 14b 和gpt oss 20b 这两个模型来本地驱动Hermes,除了慢一点傻一点外,似乎没什么大问题

    1 条回复 最后回复
    0
    • kop wangK kop wang

      如果是不考虑多媒体,只看纯LLM的话,R9700唯一的问题就是速度一般。尤其是prefill速度(输入)。
      如果是Agent工具用的比较多,那R9700的首token输出延时就比较严重。

      rolex loR 离线
      rolex loR 离线
      rolex lo
      编写于 最后由 编辑
      #4

      @kop-wang 看了很多測試,R9700真的很一般,但好像沒有更好選擇
      1萬1 也不怎麼好。但加到兩萬也沒有好選擇🥲

      kop wangK 1 条回复 最后回复
      0
      • kos orK 离线
        kos orK 离线
        kos or
        编写于 最后由 kos or 编辑
        #5

        Radeon AI PRO R9700 (本質上是RX9070XT 32GB版) 所有規格參數都一樣 除了VRAM大了一倍; Memory Bandwidth 644 GB/s, 介於RTX 5070 Ti 896 GB/s和 RTX 5060 Ti 446 GB/s 中間, 速度上我覺得還可以接受, 要更快就要買魔改卡或5090了

        我目前的理解是Mem BW 跟推論速度Token Generation 有關, PP Prefill 牽涉到Tensor Cores的數量(就N卡而言)

        Hermes Agent system prompt 基本就約17.5K 要先Prefill

        但第二次同樣的17.5K 會有KV cache hit 這部分不用進行第二次Prefill processing 除非你的LLM有去動到其中一部分 就會從變動的那一個token開始進行Prefill

        rolex loR 1 条回复 最后回复
        0
        • rolex loR rolex lo

          @kop-wang 看了很多測試,R9700真的很一般,但好像沒有更好選擇
          1萬1 也不怎麼好。但加到兩萬也沒有好選擇🥲

          kop wangK 离线
          kop wangK 离线
          kop wang
          编写于 最后由 编辑
          #6

          @rolex-lo 是的,localLLM的甜点区(高显存带宽的32GB卡)原本是5090的位置,但现在他已经上天了。
          5090目前的价格比rtx pro 5000还要贵,我就很难理解……

          如果想爽跑LLM,显存带宽1T以上是基本要求,才会在不过分降低模型精度,稍大的上下文的前提下,有一个比较漂亮的prefill数据。在Agent工具流行的现在,系统提示词超过20k很轻松,prefill过慢会导致等待时间太长。

          虚心交流,一起进步

          rolex loR 1 条回复 最后回复
          0
          • 5 在线
            5 在线
            566656661
            编写于 最后由 566656661 编辑
            #7

            來自Reddit這個帖子

            這個是2張R9700的配置, vllm-openai-rocm 配合FP8

            | Model       | Test          | Tokens/sec      | Peak Tokens/sec | TTFR (ms)       | Est PPT (ms)    | E2E TTFT (ms)   |
            |:------------|--------------:|----------------:|----------------:|----------------:|----------------:|----------------:|
            | Qwen3.6-27B | pp2048 @ d4096 | 2508.92 ± 11.57 | —               | 2529.74 ± 11.19 | 2449.58 ± 11.19 | 2529.74 ± 11.19 |
            | Qwen3.6-27B | tg32 @ d4096   | 72.94 ± 0.55    | 75.30 ± 0.57    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d8132 | 2402.38 ± 1.13  | —               | 4318.05 ± 1.99  | 4237.88 ± 1.99  | 4318.05 ± 1.99  |
            | Qwen3.6-27B | tg32 @ d8132   | 63.52 ± 3.35    | 65.58 ± 3.46    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d16000| 2197.86 ± 7.44  | —               | 8292.49 ± 28.04 | 8212.32 ± 28.04 | 8293.70 ± 28.04 |
            | Qwen3.6-27B | tg32 @ d16000  | 53.45 ± 2.63    | 55.18 ± 2.71    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d30000| 1899.63 ± 1.41  | —               | 16951.73 ± 13.21| 16871.56 ± 13.21| 16952.54 ± 14.22|
            | Qwen3.6-27B | tg32 @ d30000  | 53.23 ± 0.16    | 54.95 ± 0.17    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d60000| 1459.41 ± 0.62  | —               | 42596.49 ± 18.16| 42516.32 ± 18.16| 42598.65 ± 18.72|
            | Qwen3.6-27B | tg32 @ d60000  | 40.35 ± 0.04    | 41.66 ± 0.04    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d90000| 1181.78 ± 0.27  | —               | 77970.53 ± 16.71| 77890.36 ± 16.71| 77970.53 ± 16.71|
            | Qwen3.6-27B | tg32 @ d90000  | 28.89 ± 0.07    | 30.33 ± 0.47    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d120000| 991.43 ± 0.47  | —               | 123185.76 ± 58.07| 123103.97 ± 58.07| 123187.93 ± 60.50|
            | Qwen3.6-27B | tg32 @ d120000 | 25.20 ± 1.44    | 26.67 ± 0.94    | —               | —               | —               |
            | Qwen3.6-27B | pp2048 @ d150000| 854.21 ± 0.17  | —               | 178081.59 ± 36.01| 177999.80 ± 36.01| 178088.15 ± 32.55|
            | Qwen3.6-27B | tg32 @ d150000 | 21.86 ± 1.19    | 24.33 ± 0.94    | —               | —               | —               |
            

            運行參數

             --model /app/models
            
            --served-model-name Qwen3.6-27B-FP8
            
            --host 192.168.1.224
            
            --port 5678
            
            --tool-call-parser qwen3_coder
            
            --enable-auto-tool-choice
            
            --reasoning-parser qwen3
            
            --language-model-only
            
            --tensor-parallel-size 2
            
            --max-num-seqs 4
            
            --max-model-len 200k
            
            --dtype auto
            
            --gpu-memory-utilization 0.95
            
            --attention-config.backend TRITON_ATTN
            
            --quantization fp8
            
            --enable-chunked-prefill
            
            --enable-prefix-caching
            
            --override-generation-config '{"temperature":0.6, "top_p":0.95, "top_k":20, "presence_penalty": 0.0 , "repetition_penalty":1.0}'
            
            --speculative-config '{"method":"mtp","num_speculative_tokens":3}' 
            

            就這個而言, 單卡估計要把上下文長度砍半變100K了, 然後TTFT如未意外應該也會大降

            估計要玩還是玩llama.cpp + Vulkan了

            rolex loR 1 条回复 最后回复
            0
            • kos orK kos or

              Radeon AI PRO R9700 (本質上是RX9070XT 32GB版) 所有規格參數都一樣 除了VRAM大了一倍; Memory Bandwidth 644 GB/s, 介於RTX 5070 Ti 896 GB/s和 RTX 5060 Ti 446 GB/s 中間, 速度上我覺得還可以接受, 要更快就要買魔改卡或5090了

              我目前的理解是Mem BW 跟推論速度Token Generation 有關, PP Prefill 牽涉到Tensor Cores的數量(就N卡而言)

              Hermes Agent system prompt 基本就約17.5K 要先Prefill

              但第二次同樣的17.5K 會有KV cache hit 這部分不用進行第二次Prefill processing 除非你的LLM有去動到其中一部分 就會從變動的那一個token開始進行Prefill

              rolex loR 离线
              rolex loR 离线
              rolex lo
              编写于 最后由 编辑
              #8

              @kos-or 事實,比5060Ti好 介乎5070 。 看來買了真的要跟哥們調了。😧

              1 条回复 最后回复
              0
              • 5 566656661

                來自Reddit這個帖子

                這個是2張R9700的配置, vllm-openai-rocm 配合FP8

                | Model       | Test          | Tokens/sec      | Peak Tokens/sec | TTFR (ms)       | Est PPT (ms)    | E2E TTFT (ms)   |
                |:------------|--------------:|----------------:|----------------:|----------------:|----------------:|----------------:|
                | Qwen3.6-27B | pp2048 @ d4096 | 2508.92 ± 11.57 | —               | 2529.74 ± 11.19 | 2449.58 ± 11.19 | 2529.74 ± 11.19 |
                | Qwen3.6-27B | tg32 @ d4096   | 72.94 ± 0.55    | 75.30 ± 0.57    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d8132 | 2402.38 ± 1.13  | —               | 4318.05 ± 1.99  | 4237.88 ± 1.99  | 4318.05 ± 1.99  |
                | Qwen3.6-27B | tg32 @ d8132   | 63.52 ± 3.35    | 65.58 ± 3.46    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d16000| 2197.86 ± 7.44  | —               | 8292.49 ± 28.04 | 8212.32 ± 28.04 | 8293.70 ± 28.04 |
                | Qwen3.6-27B | tg32 @ d16000  | 53.45 ± 2.63    | 55.18 ± 2.71    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d30000| 1899.63 ± 1.41  | —               | 16951.73 ± 13.21| 16871.56 ± 13.21| 16952.54 ± 14.22|
                | Qwen3.6-27B | tg32 @ d30000  | 53.23 ± 0.16    | 54.95 ± 0.17    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d60000| 1459.41 ± 0.62  | —               | 42596.49 ± 18.16| 42516.32 ± 18.16| 42598.65 ± 18.72|
                | Qwen3.6-27B | tg32 @ d60000  | 40.35 ± 0.04    | 41.66 ± 0.04    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d90000| 1181.78 ± 0.27  | —               | 77970.53 ± 16.71| 77890.36 ± 16.71| 77970.53 ± 16.71|
                | Qwen3.6-27B | tg32 @ d90000  | 28.89 ± 0.07    | 30.33 ± 0.47    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d120000| 991.43 ± 0.47  | —               | 123185.76 ± 58.07| 123103.97 ± 58.07| 123187.93 ± 60.50|
                | Qwen3.6-27B | tg32 @ d120000 | 25.20 ± 1.44    | 26.67 ± 0.94    | —               | —               | —               |
                | Qwen3.6-27B | pp2048 @ d150000| 854.21 ± 0.17  | —               | 178081.59 ± 36.01| 177999.80 ± 36.01| 178088.15 ± 32.55|
                | Qwen3.6-27B | tg32 @ d150000 | 21.86 ± 1.19    | 24.33 ± 0.94    | —               | —               | —               |
                

                運行參數

                 --model /app/models
                
                --served-model-name Qwen3.6-27B-FP8
                
                --host 192.168.1.224
                
                --port 5678
                
                --tool-call-parser qwen3_coder
                
                --enable-auto-tool-choice
                
                --reasoning-parser qwen3
                
                --language-model-only
                
                --tensor-parallel-size 2
                
                --max-num-seqs 4
                
                --max-model-len 200k
                
                --dtype auto
                
                --gpu-memory-utilization 0.95
                
                --attention-config.backend TRITON_ATTN
                
                --quantization fp8
                
                --enable-chunked-prefill
                
                --enable-prefix-caching
                
                --override-generation-config '{"temperature":0.6, "top_p":0.95, "top_k":20, "presence_penalty": 0.0 , "repetition_penalty":1.0}'
                
                --speculative-config '{"method":"mtp","num_speculative_tokens":3}' 
                

                就這個而言, 單卡估計要把上下文長度砍半變100K了, 然後TTFT如未意外應該也會大降

                估計要玩還是玩llama.cpp + Vulkan了

                rolex loR 离线
                rolex loR 离线
                rolex lo
                编写于 最后由 rolex lo 编辑
                #9

                @566656661 我目標都只是100K 🥲 沒貨了
                機型所限沒法上雙卡。想過兩張7900 XTX 才2萬內 960GB 頻寬,好像總比兩張R9700來得化算。
                但 單卡就是沒有2萬內比R9700快

                還是謝過大哥,抄來的數據,很有用。

                現時小弟都是用wsl + lm studio...如果入手r9700 看似要全部搬到ubuntu....

                5 1 条回复 最后回复
                0
                • kop wangK kop wang

                  @rolex-lo 是的,localLLM的甜点区(高显存带宽的32GB卡)原本是5090的位置,但现在他已经上天了。
                  5090目前的价格比rtx pro 5000还要贵,我就很难理解……

                  如果想爽跑LLM,显存带宽1T以上是基本要求,才会在不过分降低模型精度,稍大的上下文的前提下,有一个比较漂亮的prefill数据。在Agent工具流行的现在,系统提示词超过20k很轻松,prefill过慢会导致等待时间太长。

                  rolex loR 离线
                  rolex loR 离线
                  rolex lo
                  编写于 最后由 编辑
                  #10

                  @kop-wang 有想過 直上mbp 16 m5 max 算....
                  但看過測試數據,還是很普通....

                  1 条回复 最后回复
                  0
                  • rolex loR rolex lo

                    @566656661 我目標都只是100K 🥲 沒貨了
                    機型所限沒法上雙卡。想過兩張7900 XTX 才2萬內 960GB 頻寬,好像總比兩張R9700來得化算。
                    但 單卡就是沒有2萬內比R9700快

                    還是謝過大哥,抄來的數據,很有用。

                    現時小弟都是用wsl + lm studio...如果入手r9700 看似要全部搬到ubuntu....

                    5 在线
                    5 在线
                    566656661
                    编写于 最后由 编辑
                    #11

                    @rolex-lo

                    可以這樣說, AMD在原生的Linux内核會比WSL 2來得好, 畢竟WSL 2再怎麽貼近Linux 内核, 它的本質還是Hyper V, 不多不少都會有影響

                    1 条回复 最后回复
                    1
                    • 5 在线
                      5 在线
                      566656661
                      编写于 最后由 编辑
                      #12

                      剛找到一個Vulkan的數據

                      $: llama-bench-vulkan   -m 'Qwen3.6-27B-UD-Q4_K_XL.gguf' 
                      WARNING: radv is not a conformant Vulkan implementation, testing use only.
                      ggml_vulkan: Found 1 Vulkan devices:
                      ggml_vulkan: 0 = AMD Radeon AI PRO R9700 (RADV GFX1201) (radv) | uma: 0 | fp16: 1 | bf16: 1 | warp size: 64 | shared memory: 65536 | int dot: 1 | matrix cores: KHR_coopmat
                      | model                          |       size |     params | backend    | ngl |            test |                  t/s |
                      | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
                      | qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           pp512 |       1050.13 ± 0.54 |
                      | qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           tg128 |         31.26 ± 0.01 |
                      
                      build: 97895129e (8863)
                      

                      運行參數

                      llama-server-vulkan   -m '/Qwen3.6-27B-UD-Q4_K_XL.gguf'   --mmproj '/mmproj-BF16(3).gguf'  -np 1 -ngl 99   --temp 0.6   --top-p 0.95   --top-k 20   --min-p 0.00 --presence_penalty 0.00 --jinja  --chat-template-kwargs '{"preserve_thinking": true}' -ub 2048 -fa 1 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48 --host 0.0.0.0   --port 8180
                      
                      --- Prompt Processing (PPS) Statistics ---
                      Mean:       549.60 t/s
                      Median:     519.19 t/s
                      P95:        936.60 t/s
                      StdDev:     240.80 (Stability)
                      Range:    64.18 - 1015.91 t/s
                      
                      --- Token Generation (Tok/s) Statistics ---
                      Mean:        28.80 t/s
                      Median:      28.20 t/s
                      P95:         45.34 t/s
                      StdDev:       6.78 (Stability)
                      Range:    16.49 - 53.63   t/s
                      
                      Total Tokens Generated: 87840
                      $:~/Documents/llama_perf$ python3 parse_performance_stats_full.py
                      
                      == Prompt Processing (PPS) Analysis ==
                      Effective Avg:     549.60 t/s (Token-Weighted)
                      Median (P50):      519.19 t/s
                      Tail (P99):        958.31 t/s
                      Stability(CV):       43.8% (JITTERY)
                      Skewness:            0.04 (Symmetric)
                      
                      == Token Generation (Tok/s) Analysis ==
                      Effective Avg:    1697.20 t/s (Token-Weighted)
                      Median (P50):       28.20 t/s
                      Tail (P99):         51.39 t/s
                      Stability(CV):       23.5% (JITTERY)
                      Skewness:            1.40 (Burst Heavy)
                      

                      看上去至少比vLLM好, 不過真的就只有一點

                      rolex loR 1 条回复 最后回复
                      0
                      • kos orK 离线
                        kos orK 离线
                        kos or
                        编写于 最后由 kos or 编辑
                        #13

                        還有一個選擇 Mac Studio M3 Ultra 假如二手買不到 現在官網還有賣 但要等五個月
                        Mac Studio M3 Ultra 96GB
                        28 核心 CPU 配備 20 個效能核心與 8 個節能核心60 核心 GPU
                        硬體加速光線追蹤 32 核心神經網路引擎 819GB/s 記憶體頻寬

                        1 条回复 最后回复
                        0
                        • rolex loR 离线
                          rolex loR 离线
                          rolex lo
                          编写于 最后由 rolex lo 编辑
                          #14

                          那如果上 blackwell 4500 32GB vram 對比 R9700 來說
                          是否值得?差多嗎?

                          CS6C 1 条回复 最后回复
                          0
                          • rolex loR rolex lo

                            那如果上 blackwell 4500 32GB vram 對比 R9700 來說
                            是否值得?差多嗎?

                            CS6C 在线
                            CS6C 在线
                            CS6
                            编写于 最后由 编辑
                            #15

                            @rolex-lo coding 你還是訂 codex 或是 claude code 吧! 沒比較貴,目前我 R9700 單卡 coding 體驗很糟

                            rolex loR 1 条回复 最后回复
                            1
                            • CS6C CS6

                              @rolex-lo coding 你還是訂 codex 或是 claude code 吧! 沒比較貴,目前我 R9700 單卡 coding 體驗很糟

                              rolex loR 离线
                              rolex loR 离线
                              rolex lo
                              编写于 最后由 编辑
                              #16

                              @CS6 工作上要求是 邏輯思考工作流程及方式以及方法 從而尋找問題 當中要配合閱讀日誌 和 提供script 等等 所以上下文比較大需要。

                              那請問你是用他來寫code嗎?

                              CS6C 1 条回复 最后回复
                              0
                              • rolex loR rolex lo

                                @CS6 工作上要求是 邏輯思考工作流程及方式以及方法 從而尋找問題 當中要配合閱讀日誌 和 提供script 等等 所以上下文比較大需要。

                                那請問你是用他來寫code嗎?

                                CS6C 在线
                                CS6C 在线
                                CS6
                                编写于 最后由 CS6 编辑
                                #17

                                @rolex-lo
                                我是 opencode 搭配 liteLLM 跑 gamma4 / Qwne 3.6 3.7
                                主力是 codex max + claude code max 200 ,我的工作是移動端全棧開發+LLM devops
                                我平常常會把大量的裝置端 log直接喂進去做分析,也會讓AI直接去做E2E測試
                                還有配合 BDD 做 測試與開發

                                rolex loR 1 条回复 最后回复
                                1
                                • CS6C CS6

                                  @rolex-lo
                                  我是 opencode 搭配 liteLLM 跑 gamma4 / Qwne 3.6 3.7
                                  主力是 codex max + claude code max 200 ,我的工作是移動端全棧開發+LLM devops
                                  我平常常會把大量的裝置端 log直接喂進去做分析,也會讓AI直接去做E2E測試
                                  還有配合 BDD 做 測試與開發

                                  rolex loR 离线
                                  rolex loR 离线
                                  rolex lo
                                  编写于 最后由 rolex lo 编辑
                                  #18

                                  @CS6 果然是大神🙏 那r9700對你來說真的雞肋,你cotext 開到多少>?

                                  1 条回复 最后回复
                                  0
                                  • kos orK 离线
                                    kos orK 离线
                                    kos or
                                    编写于 最后由 编辑
                                    #19

                                    Pro 4500 32GB (麗台 NT$130K) 就是VRAM加大版的 RTX5070Ti 16GB (NT$35K) 規格一模一樣 除了 32GB at 896 GB/s, 可以捏一下大腿 去PTT HardwareSale 版面 有機會 130K 徵到一張, 我昨天有看到有人出了一張白色海外進口版的5090 大約 $12X K 出手; 海外版一般只有3年保固 而且可能要送到歐美保修(??)

                                    1 条回复 最后回复
                                    1
                                    • 5 566656661

                                      剛找到一個Vulkan的數據

                                      $: llama-bench-vulkan   -m 'Qwen3.6-27B-UD-Q4_K_XL.gguf' 
                                      WARNING: radv is not a conformant Vulkan implementation, testing use only.
                                      ggml_vulkan: Found 1 Vulkan devices:
                                      ggml_vulkan: 0 = AMD Radeon AI PRO R9700 (RADV GFX1201) (radv) | uma: 0 | fp16: 1 | bf16: 1 | warp size: 64 | shared memory: 65536 | int dot: 1 | matrix cores: KHR_coopmat
                                      | model                          |       size |     params | backend    | ngl |            test |                  t/s |
                                      | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
                                      | qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           pp512 |       1050.13 ± 0.54 |
                                      | qwen35 27B Q4_K - Medium       |  16.39 GiB |    26.90 B | Vulkan     |  99 |           tg128 |         31.26 ± 0.01 |
                                      
                                      build: 97895129e (8863)
                                      

                                      運行參數

                                      llama-server-vulkan   -m '/Qwen3.6-27B-UD-Q4_K_XL.gguf'   --mmproj '/mmproj-BF16(3).gguf'  -np 1 -ngl 99   --temp 0.6   --top-p 0.95   --top-k 20   --min-p 0.00 --presence_penalty 0.00 --jinja  --chat-template-kwargs '{"preserve_thinking": true}' -ub 2048 -fa 1 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48 --host 0.0.0.0   --port 8180
                                      
                                      --- Prompt Processing (PPS) Statistics ---
                                      Mean:       549.60 t/s
                                      Median:     519.19 t/s
                                      P95:        936.60 t/s
                                      StdDev:     240.80 (Stability)
                                      Range:    64.18 - 1015.91 t/s
                                      
                                      --- Token Generation (Tok/s) Statistics ---
                                      Mean:        28.80 t/s
                                      Median:      28.20 t/s
                                      P95:         45.34 t/s
                                      StdDev:       6.78 (Stability)
                                      Range:    16.49 - 53.63   t/s
                                      
                                      Total Tokens Generated: 87840
                                      $:~/Documents/llama_perf$ python3 parse_performance_stats_full.py
                                      
                                      == Prompt Processing (PPS) Analysis ==
                                      Effective Avg:     549.60 t/s (Token-Weighted)
                                      Median (P50):      519.19 t/s
                                      Tail (P99):        958.31 t/s
                                      Stability(CV):       43.8% (JITTERY)
                                      Skewness:            0.04 (Symmetric)
                                      
                                      == Token Generation (Tok/s) Analysis ==
                                      Effective Avg:    1697.20 t/s (Token-Weighted)
                                      Median (P50):       28.20 t/s
                                      Tail (P99):         51.39 t/s
                                      Stability(CV):       23.5% (JITTERY)
                                      Skewness:            1.40 (Burst Heavy)
                                      

                                      看上去至少比vLLM好, 不過真的就只有一點

                                      rolex loR 离线
                                      rolex loR 离线
                                      rolex lo
                                      编写于 最后由 编辑
                                      #20

                                      @566656661 看了又看 那如果上 blackwell 4500 32GB vram 對比 R9700 來說差多嗎?除了價錢外...

                                      5 1 条回复 最后回复
                                      0
                                      • rolex loR rolex lo

                                        @566656661 看了又看 那如果上 blackwell 4500 32GB vram 對比 R9700 來說差多嗎?除了價錢外...

                                        5 在线
                                        5 在线
                                        566656661
                                        编写于 最后由 566656661 编辑
                                        #21

                                        @rolex-lo

                                        我現在就是用RTX Pro 4500, 也許晚上我發個文?

                                        rolex loR CS6C 2 条回复 最后回复
                                        1
                                        • 5 566656661

                                          @rolex-lo

                                          我現在就是用RTX Pro 4500, 也許晚上我發個文?

                                          rolex loR 离线
                                          rolex loR 离线
                                          rolex lo
                                          编写于 最后由 编辑
                                          #22

                                          @566656661 謝過大哥. 都想了解 一倍價錢, 會否比r9700好一半,,,😵

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组