跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

已定时 已固定 已锁定 已移动 LLM讨论区
48 帖子 15 发布者 1.2k 浏览 6 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • J johnnybegood

    @williamlouis 说:

    问题 1(近端检索)
    文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

    问题 2(中段检索)
    2024年3月20日的实验实际连续运行了几个时间单位?

    问题 3(干扰排除)
    赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

    问题 4(核心推理,必做)
    根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

    问题 5(进阶反事实,可选)
    如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?

    试了一下, minimax m2.7 第五题错了。 deepseek v4 flash全对

    williamlouisW 离线
    williamlouisW 离线
    williamlouis
    超级版主
    编写于 最后由 编辑
    #16

    @johnnybegood 给本地算力测试用的。。你测在线的干什么?

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    J 2 条回复 最后回复
    0
    • williamlouisW williamlouis

      @johnnybegood 给本地算力测试用的。。你测在线的干什么?

      J 离线
      J 离线
      johnnybegood
      编写于 最后由 编辑
      #17

      @williamlouis 好玩儿。 哈哈。 没想到 minimax居然能回答错。 真的是。。。。无语

      1 条回复 最后回复
      0
      • williamlouisW williamlouis

        @johnnybegood 给本地算力测试用的。。你测在线的干什么?

        J 离线
        J 离线
        johnnybegood
        编写于 最后由 编辑
        #18

        @williamlouis 本地测试也做了 qwen 35b a3b 效果最好, 又快又对

        27b都对但是太慢了

        122b a10b 居然算错了。。。可能因为我内存太小

        1 条回复 最后回复
        0
        • AGIA 离线
          AGIA 离线
          AGI
          编写于 最后由 AGI 编辑
          #19

          显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
          llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
          -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
          0.95 --top-k 20 --host 0.0.0.0 --port 8080

          webui显示token速度在60左右。

          又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

          CHIA AN YANGC 艷陽天艷 2 条回复 最后回复
          1
          • 系统 取消固定了该主题
          • W wml-ai 被引用 于这个主题
          • AGIA AGI

            显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
            llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
            -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
            0.95 --top-k 20 --host 0.0.0.0 --port 8080

            webui显示token速度在60左右。

            又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

            CHIA AN YANGC 离线
            CHIA AN YANGC 离线
            CHIA AN YANG
            编写于 最后由 CHIA AN YANG 编辑
            #20

            @AGI 很不錯了 我也差不多這樣 沒有每次都很快,但用起來順就好,要來準備第二張卡了 ,目前我接了codex cli進ubuntu ,讓他檢查hermes提示詞跟skill tools載入過大優化,優化完,目前玩得分起,我在查詢幣價分析幾乎秒等級的回應,然後裝了一張3060/12g 跑一個小模型9b 設定壓縮讓他跑,速度挺快的,給大家參考

            1 条回复 最后回复
            0
            • AGIA AGI

              显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
              llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
              -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
              0.95 --top-k 20 --host 0.0.0.0 --port 8080

              webui显示token速度在60左右。

              又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

              艷陽天艷 离线
              艷陽天艷 离线
              艷陽天
              编写于 最后由 编辑
              #21

              @AGI 请问一下你这个模型可以识图吗?我加挂识图,最高只有21t/s

              #!/bin/bash
              export HIP_VISIBLE_DEVICES=0
              export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
              export PATH=/opt/rocm/bin:$PATH
              export ROCM_PATH=/opt/rocm
              export HSA_ENABLE_SDMA=0

              ~/llama.cpp-turboquant-hip/build/bin/llama-server
              -m /models/GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
              --mmproj /models/GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
              --alias qwen3.6-27b
              --host 0.0.0.0 --port 8000
              --n-gpu-layers 999
              --ctx-size 151552
              --parallel 2
              --flash-attn on
              --batch-size 3072
              --ubatch-size 3072
              --threads 16
              --image-min-tokens 1024
              --threads-batch 16
              --temp 1.0
              --top-p 0.95
              --top-k 20
              --min-p 0.00
              --presence-penalty 0.5
              --cache-type-k turbo3
              --cache-type-v turbo3
              --mlock
              --no-warmup
              --log-file /var/log/llama-server.log

              5 1 条回复 最后回复
              0
              • 艷陽天艷 艷陽天

                @AGI 请问一下你这个模型可以识图吗?我加挂识图,最高只有21t/s

                #!/bin/bash
                export HIP_VISIBLE_DEVICES=0
                export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
                export PATH=/opt/rocm/bin:$PATH
                export ROCM_PATH=/opt/rocm
                export HSA_ENABLE_SDMA=0

                ~/llama.cpp-turboquant-hip/build/bin/llama-server
                -m /models/GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
                --mmproj /models/GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
                --alias qwen3.6-27b
                --host 0.0.0.0 --port 8000
                --n-gpu-layers 999
                --ctx-size 151552
                --parallel 2
                --flash-attn on
                --batch-size 3072
                --ubatch-size 3072
                --threads 16
                --image-min-tokens 1024
                --threads-batch 16
                --temp 1.0
                --top-p 0.95
                --top-k 20
                --min-p 0.00
                --presence-penalty 0.5
                --cache-type-k turbo3
                --cache-type-v turbo3
                --mlock
                --no-warmup
                --log-file /var/log/llama-server.log

                5 离线
                5 离线
                566656661
                编写于 最后由 编辑
                #22

                @艷陽天

                我不太熟llama.cpp的操作, 所以只能從底層來說一下

                他理論上有加載圖片的Encoder, 模型權重加載自帶

                你context length是他的2.x倍, 而且也走parallel

                llama.cpp估計把内存給用上了, 他的配置有寫把所有kv cache跟model weight都塞進VRAM裏面 (--no-mmap, ngl)

                艷陽天艷 1 条回复 最后回复
                2
                • 5 566656661

                  @艷陽天

                  我不太熟llama.cpp的操作, 所以只能從底層來說一下

                  他理論上有加載圖片的Encoder, 模型權重加載自帶

                  你context length是他的2.x倍, 而且也走parallel

                  llama.cpp估計把内存給用上了, 他的配置有寫把所有kv cache跟model weight都塞進VRAM裏面 (--no-mmap, ngl)

                  艷陽天艷 离线
                  艷陽天艷 离线
                  艷陽天
                  编写于 最后由 编辑
                  #23

                  @566656661 好,謝謝, 我來試試

                  1 条回复 最后回复
                  0
                  • AGIA 离线
                    AGIA 离线
                    AGI
                    编写于 最后由 编辑
                    #24
                    此主題已被删除!
                    1 条回复 最后回复
                    0
                    • williamlouisW 离线
                      williamlouisW 离线
                      williamlouis
                      超级版主
                      编写于 最后由 编辑
                      #25

                      我也下单了 7900XTX 24G。实体和你们一起折腾。

                      个人主页:xlkj.org Telegram https://t.me/xlkjorg

                      1 条回复 最后回复
                      1
                      • AGIA 离线
                        AGIA 离线
                        AGI
                        编写于 最后由 AGI 编辑
                        #26

                        测试了下,48t/s,参数如下,Key用的4bit量化

                        llama-server \
                          -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                          --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
                          -c 65536 \
                          -b 2048 \
                          -ub 256 \
                          -fa 1 \
                          -ngl 99 \
                          -t 22 \
                          --cache-type-k q8_0 \
                          --cache-type-v q4_0 \
                          --spec-type draft-mtp \
                          --spec-draft-n-max 2 \
                          --no-mmap \
                          --tensor-split 0 \
                          --temp 1.0 \
                          --top-p 0.95 \
                          --top-k 20 \
                          --host 0.0.0.0 \
                          --port 8080
                        
                        1 条回复 最后回复
                        0
                        • AGIA 离线
                          AGIA 离线
                          AGI
                          编写于 最后由 编辑
                          #27

                          截屏2026-06-07 10.22.23.png

                          5 1 条回复 最后回复
                          0
                          • AGIA 离线
                            AGIA 离线
                            AGI
                            编写于 最后由 AGI 编辑
                            #28

                            截屏2026-06-07 10.29.48.png
                            运行radeontop -c显示的显存占用

                            1 条回复 最后回复
                            0
                            • AGIA AGI

                              截屏2026-06-07 10.22.23.png

                              5 离线
                              5 离线
                              566656661
                              编写于 最后由 编辑
                              #29

                              @AGI

                              簡單測試可以, 如果想嘗試多的話可以用llama.cpp的llama-bench

                              或者跨平臺的llama-benchy

                              畢竟誰都不想在Agent用到一半然後自己的模型引擎就挂掉吧?

                              我用一下比較熟悉的vllm + llama-benchy作爲例子

                              這個是在vllm底下一個超長上下文的測試

                              uv run llama-benchy \
                                --base-url "http://localhost:7380/v1" \
                                --model "Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                --tokenizer "$HOME/vllm/models/lyf/Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                --pp 2048 \
                                --tg 480 \
                                --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \
                                --latency-mode generation \
                                --skip-coherence \
                                --concurrency 1
                              

                              相對應的llama-bench大約會是這樣 (沒實測, 單純看官方文件推斷)

                              llama-bench \
                                  -m /path/to/model.gguf \ 
                                  -pg 2048,480 \
                                  -d 0,1000,5000,10000,20000,50000,100000,150000,200000 \   #各種長度, 最好實驗到啓動時上下文參數的8到9成
                                  -r 3 \      # 重複3次, 會有正負數
                                  -ngl 999 \    #全塞到VRAM裏
                                  -fa auto \
                                  -b 2048 \
                                  -ub 512
                              

                              就會有類似的Markdown結果 (官方文件提供)

                              | model                          |       size |     params | backend    | ngl | test       |              t/s |
                              | ------------------------------ | ---------: | ---------: | ---------- | --: | ---------- | ---------------: |
                              | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 128     |    132.19 ± 0.55 |
                              | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 256     |    129.37 ± 0.54 |
                              | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 512     |    123.83 ± 0.25 |
                              | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 128     |     82.17 ± 0.31 |
                              | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 256     |     80.74 ± 0.23 |
                              | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 512     |     78.08 ± 0.07 |
                              
                              AGIA 1 条回复 最后回复
                              0
                              • 5 566656661

                                @AGI

                                簡單測試可以, 如果想嘗試多的話可以用llama.cpp的llama-bench

                                或者跨平臺的llama-benchy

                                畢竟誰都不想在Agent用到一半然後自己的模型引擎就挂掉吧?

                                我用一下比較熟悉的vllm + llama-benchy作爲例子

                                這個是在vllm底下一個超長上下文的測試

                                uv run llama-benchy \
                                  --base-url "http://localhost:7380/v1" \
                                  --model "Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                  --tokenizer "$HOME/vllm/models/lyf/Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                  --pp 2048 \
                                  --tg 480 \
                                  --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \
                                  --latency-mode generation \
                                  --skip-coherence \
                                  --concurrency 1
                                

                                相對應的llama-bench大約會是這樣 (沒實測, 單純看官方文件推斷)

                                llama-bench \
                                    -m /path/to/model.gguf \ 
                                    -pg 2048,480 \
                                    -d 0,1000,5000,10000,20000,50000,100000,150000,200000 \   #各種長度, 最好實驗到啓動時上下文參數的8到9成
                                    -r 3 \      # 重複3次, 會有正負數
                                    -ngl 999 \    #全塞到VRAM裏
                                    -fa auto \
                                    -b 2048 \
                                    -ub 512
                                

                                就會有類似的Markdown結果 (官方文件提供)

                                | model                          |       size |     params | backend    | ngl | test       |              t/s |
                                | ------------------------------ | ---------: | ---------: | ---------- | --: | ---------- | ---------------: |
                                | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 128     |    132.19 ± 0.55 |
                                | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 256     |    129.37 ± 0.54 |
                                | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 512     |    123.83 ± 0.25 |
                                | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 128     |     82.17 ± 0.31 |
                                | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 256     |     80.74 ± 0.23 |
                                | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 512     |     78.08 ± 0.07 |
                                
                                AGIA 离线
                                AGIA 离线
                                AGI
                                编写于 最后由 编辑
                                #30

                                @566656661 结果如下,让codex替我跑的:
                                截屏2026-06-07 12.26.20.png

                                5 1 条回复 最后回复
                                1
                                • AGIA AGI

                                  @566656661 结果如下,让codex替我跑的:
                                  截屏2026-06-07 12.26.20.png

                                  5 离线
                                  5 离线
                                  566656661
                                  编写于 最后由 566656661 编辑
                                  #31

                                  @AGI

                                  看起來相當不錯

                                  這樣後面有人想參考也很方便吧

                                  如果有vram圖就更好了, 不過能跑過benchmark估計也比較穩

                                  AGIA 1 条回复 最后回复
                                  0
                                  • 5 566656661

                                    @AGI

                                    看起來相當不錯

                                    這樣後面有人想參考也很方便吧

                                    如果有vram圖就更好了, 不過能跑過benchmark估計也比較穩

                                    AGIA 离线
                                    AGIA 离线
                                    AGI
                                    编写于 最后由 AGI 编辑
                                    #32

                                    @566656661 又测试了下128K上下文的,也是稳稳过:

                                      llama-server \
                                        -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                                        --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
                                        -c 131072 \
                                        --parallel 1 \
                                        -b 2048 \
                                        -ub 256 \
                                        -fa 1 \
                                        -ngl 99 \
                                        -t 22 \
                                        --cache-type-k q8_0 \
                                        --cache-type-v q4_0 \
                                        --spec-type draft-mtp \
                                        --spec-draft-n-max 2 \
                                        --no-mmap \
                                        --tensor-split 0 \
                                        --temp 1.0 \
                                        --top-p 0.95 \
                                        --top-k 20 \
                                        --host 0.0.0.0 \
                                        --port 8080
                                    

                                    测试命令:

                                      uvx llama-benchy \
                                        --base-url "http://127.0.0.1:8080/v1" \
                                        --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
                                        --tokenizer "Qwen/Qwen3-32B" \
                                        --pp 2048 \
                                        --tg 480 \
                                        --depth 0 1000 5000 10000 20000 40000 60000 80000 100000 120000 \
                                        --runs 1 \
                                        --latency-mode generation \
                                        --skip-coherence \
                                        --concurrency 1 \
                                        --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k.md \
                                        --format md
                                    

                                    结果:

                                    model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 680.59 ± 0.00 3338.06 ± 0.00 3098.77 ± 0.00 3338.06 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 54.05 ± 0.00 64.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d1000 653.98 ± 0.00 5002.45 ± 0.00 4763.16 ± 0.00 5002.45 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d1000 56.33 ± 0.00 69.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d5000 651.71 ± 0.00 11268.68 ± 0.00 11029.39 ± 0.00 11268.68 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d5000 54.48 ± 0.00 66.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d10000 640.50 ± 0.00 19474.35 ± 0.00 19235.06 ± 0.00 19474.35 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d10000 43.98 ± 0.00 65.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d20000 603.14 ± 0.00 37515.97 ± 0.00 37276.68 ± 0.00 37515.97 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d20000 50.28 ± 0.00 61.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d40000 531.14 ± 0.00 80935.83 ± 0.00 80696.54 ± 0.00 80935.83 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d40000 48.03 ± 0.00 56.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d60000 471.59 ± 0.00 134568.39 ± 0.00 134329.10 ± 0.00 134568.39 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d60000 43.79 ± 0.00 54.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d80000 423.74 ± 0.00 197853.56 ± 0.00 197614.27 ± 0.00 197853.56 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d80000 37.63 ± 0.00 46.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d100000 384.01 ± 0.00 271566.90 ± 0.00 271327.61 ± 0.00 271566.90 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d100000 32.81 ± 0.00 42.00 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d120000 351.21 ± 0.00 355123.65 ± 0.00 354884.35 ± 0.00 355123.65 ± 0.00
                                    Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d120000 32.44 ± 0.00 39.00 ± 0.00
                                    1 条回复 最后回复
                                    1
                                    • AGIA 离线
                                      AGIA 离线
                                      AGI
                                      编写于 最后由 编辑
                                      #33

                                      跑128k的时候,显存还有1.7G左右空闲的。

                                      1 条回复 最后回复
                                      0
                                      • AGIA 离线
                                        AGIA 离线
                                        AGI
                                        编写于 最后由 AGI 编辑
                                        #34

                                        把--spec-draft-n-max 2修改为3以后,又测试了下:

                                        截屏2026-06-07 13.18.44.png

                                        128k n-max=3 d120000 Benchmark

                                        LLM Command

                                        llama-server \
                                          -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                                          --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
                                          -c 131072 \
                                          --parallel 1 \
                                          -b 2048 \
                                          -ub 256 \
                                          -fa 1 \
                                          -ngl 99 \
                                          -t 22 \
                                          --cache-type-k q8_0 \
                                          --cache-type-v q4_0 \
                                          --spec-type draft-mtp \
                                          --spec-draft-n-max 3 \
                                          --no-mmap \
                                          --temp 1.0 \
                                          --top-p 0.95 \
                                          --top-k 20 \
                                          --host 0.0.0.0 \
                                          --port 8080
                                        

                                        Test Command

                                        uvx llama-benchy \
                                          --base-url "http://127.0.0.1:8080/v1" \
                                          --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
                                          --tokenizer "Qwen/Qwen3-32B" \
                                          --pp 2048 \
                                          --tg 480 \
                                          --depth 120000 \
                                          --runs 1 \
                                          --latency-mode generation \
                                          --skip-coherence \
                                          --concurrency 1 \
                                          --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k-nmax3-d120000.md \
                                          --format md
                                        

                                        Benchmark Result

                                        test t/s peak t/s ttfr est_ppt e2e_ttft
                                        pp2048 @ d120000 353.80 352493.90 ms 352253.89 ms 352493.90 ms
                                        tg480 @ d120000 35.26 48.00

                                        Server Timing

                                        prompt eval time = 351710.86 ms / 124629 tokens
                                        prompt speed     = 354.35 tokens/s
                                        
                                        eval time        = 13601.37 ms / 480 tokens
                                        generation speed = 35.29 tokens/s
                                        
                                        total time       = 365312.23 ms / 125109 tokens
                                        
                                        draft acceptance = 0.70961
                                        accepted/generated = 325 / 458
                                        
                                        truncated = 0
                                        

                                        写代码开始速度能上70+,稳定在50+,很满足了

                                        1 条回复 最后回复
                                        1
                                        • williamlouisW 离线
                                          williamlouisW 离线
                                          williamlouis
                                          超级版主
                                          编写于 最后由 编辑
                                          #35

                                          后天才能到货。。。。让你搞的我热血沸腾了。我将在 ubuntu 上跑。版本还是24.太新的版本都不适合我。前期测试 有可能上个桌面版 方便 给你们做报告。或者直接在 Mac上 调用。新卡到了我 Windows 跑下体质。

                                          个人主页:xlkj.org Telegram https://t.me/xlkjorg

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组