跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Qwen3.6-27B 六大启动模式详解:性能、参数与场景

Qwen3.6-27B 六大启动模式详解:性能、参数与场景

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 8 发布者 535 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • M 离线
    M 离线
    mark
    超凡大师
    编写于 最后由 编辑
    #4

    质量很高. 先留言,后学习.

    1 条回复 最后回复
    0
    • williamlouisW 离线
      williamlouisW 离线
      williamlouis
      超级版主
      编写于 最后由 编辑
      #5

      辛苦了大牛哥。棒棒哒。很全面的总结

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      A 1 条回复 最后回复
      1
      • ,williamlouisW williamlouis 固定了此主题
      • williamlouisW williamlouis

        辛苦了大牛哥。棒棒哒。很全面的总结

        A 离线
        A 离线
        abaalei
        技术大牛 劳动模范
        编写于 最后由 编辑
        #6

        @williamlouis
        哈哈,不牛不牛,只是心痛我的账单😰 😰
        8cd37f6c-43a8-43be-99d9-be4510fed70d-image.jpeg
        还没算上白嫖gemini的
        e946cef7-4aea-437c-86a8-fcdd7f6c890e-image.jpeg

        5a9b2d97-089d-4729-8746-e5fac158db42-image.jpeg

        williamlouisW 1 条回复 最后回复
        1
        • A abaalei

          @williamlouis
          哈哈,不牛不牛,只是心痛我的账单😰 😰
          8cd37f6c-43a8-43be-99d9-be4510fed70d-image.jpeg
          还没算上白嫖gemini的
          e946cef7-4aea-437c-86a8-fcdd7f6c890e-image.jpeg

          5a9b2d97-089d-4729-8746-e5fac158db42-image.jpeg

          williamlouisW 离线
          williamlouisW 离线
          williamlouis
          超级版主
          编写于 最后由 编辑
          #7

          @abaalei 知足常乐。兄弟。你已经选用了最经济的模型。 换个其他的你就知道什么叫肉疼。

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          A 1 条回复 最后回复
          0
          • williamlouisW williamlouis

            @abaalei 知足常乐。兄弟。你已经选用了最经济的模型。 换个其他的你就知道什么叫肉疼。

            A 离线
            A 离线
            abaalei
            技术大牛 劳动模范
            编写于 最后由 编辑
            #8

            @williamlouis
            哈哈,这倒确实。不用说其它了,就看我白嫖gemini的7天200美元的账单,都觉得肉痛。😢

            1 条回复 最后回复
            0
            • Grayson RenG 离线
              Grayson RenG 离线
              Grayson Ren
              编写于 最后由 编辑
              #9

              准备搭个同样硬件抄作业

              williamlouisW 1 条回复 最后回复
              1
              • Grayson RenG Grayson Ren

                准备搭个同样硬件抄作业

                williamlouisW 离线
                williamlouisW 离线
                williamlouis
                超级版主
                编写于 最后由 编辑
                #10

                @Grayson-Ren 亲测 7900XTX 24G 可以做为门槛。做到入门级使用。可以干很多小显存项目。期待优化。
                近期观察有 炒股,生图,无限制版小说,小短片等能力。

                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                1 条回复 最后回复
                0
                • A abaalei

                  硬件环境:双路 7900 XTX (XFX MERC + Sapphire Pulse) + NVIDIA 3080 Ti (ACE-Step) | X99 DDR4-64G | ROCm 7.2.0/7.14 + Vulkan 双后端

                  编者注:
                  简而言之,对我来说
                  1.日常 Comfyui+Qwen 的话就选择----------### 模式 C — MTP 自我投机解码
                  2.写小说 --------------------------------### 模式 B — IQ4_XS 128K 长文本写作(30 / 37.7 tok/s)
                  3.想找个人/对象瞎聊一通--------------------### 模式 A — DFlash 投机解码(84 tok/s ⚡纯跑分)
                  3.想要双卡 进行Debug或者安全漏洞查测,就用---### 模式 E — 双卡 Q8_0 最高精度(~23 tok/s)

                  前言

                  自从折腾上 Qwen3.6-27B 后,根据不同使用场景摸索出了 6 个标准模式(A/B/C 单卡 + D/E/F 双卡),外加 2 个 Vulkan 变体。每个模式针对不同的量化、后端、推理策略做了取舍。这篇文章把这些模式的性能数据、启动参数、适用场景完整整理出来,给后来者参考,也方便自己查阅。

                  模式命名规范:A/B/C = 单卡(用 XFX MERC,不影响 ComfyUI),D/E/F = 双卡(占用两张 7900 XTX,需停 ComfyUI)。Vulkan 变体加 -Vk 后缀。


                  一、单卡模式 (A / B / C)

                  单卡统一用 XFX MERC(HIP_VISIBLE_DEVICES=0, UUID GPU-8accafcdfee6fc4f),端口 11435,Sapphire Pulse 上的 ComfyUI 不受影响。

                  总览

                  模式 速度 模型大小 量化 上下文 是否有 API 后端
                  A (DFlash) 84 tok/s 🏆 15.4G+1.8G Q4_K_M + Q8 draft 32K ❌ bench only ROCm 7.2
                  B (IQ4_XS) ~30 / 37.7 tok/s 14G IQ4_XS (4.25 bpw) 131K 🏆 ✅ ROCm / Vulkan
                  C (MTP) ~40 tok/s 16.7G MTP Q4_K_P (65层) 65K ✅ ROCm 7.14

                  模式 A — DFlash 投机解码(84 tok/s ⚡纯跑分)

                  性能

                  • 单卡生成速度:~84 tok/s(Intel XEON E5-2680 v4 上验证)
                  • 使用 DFlash 草稿模型做投机解码,MTP 接受率 ~75%
                  • 限制:只能用 test_dflash / bench_he.py 跑分,没有 llama-server,没有 OpenAI API

                  启动参数

                  export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                  export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  cd /home/peter/lucebox-hub/dflash
                  
                  numactl --cpunodebind=0 --membind=0 python3 scripts/server.py \
                    --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' \
                    --draft models/dflash-draft-3.6-q8_0.gguf \
                    --budget 8 \
                    --max-ctx 32768 \
                    --fa-window 0 \
                    --tokenizer Qwen/Qwen3.6-27B \
                    --cache-type-k q8_0 \
                    --cache-type-v q4_0 \
                    --host 0.0.0.0 --port 11435
                  

                  适用场景

                  • 纯跑分/基准测试:验证硬件、对比投机策略效果
                  • 研究用途:DFlash 架构实验,不用于日常使用
                  • ⚠️ 如果你需要速度且有 API server,选模式 C(MTP)更好

                  血训:严禁把模式 A 的模型 + 标准 AR 引擎称为"模式 A"。正确命名应该是 A-AR(四不像,~30 tok/s 无投机),这已经是个独立配置,和模式 A(DFlash 84 tok/s)完全不同。


                  模式 B — IQ4_XS 128K 长文本写作(30 / 37.7 tok/s)

                  性能

                  后端 Prefill (pp512) Decode (tg128) 相对 ROCm
                  ROCm 7.2.0 946 t/s 29.7 t/s —
                  Vulkan 697 t/s (-26%) 37.7 t/s (+27%) 🚀 短 prompt 优
                  ROCm 7.14 + XNACK=1 ~950 t/s ~29.4 t/s ❌无收益

                  键发现:IQ4_XS 在 ROCm 7.14 + HSA_XNACK=1 上无收益(pp+1%, tg-2%)。高压缩比量化(4.25 bpw)的访存模式不利于 XNACK 机制。

                  启动参数

                  ROCm 版(start-qwen-b.sh):

                  export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-rocm/bin:/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                  export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  
                  numactl --cpunodebind=0 --membind=0 llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
                    -c 131072 -ngl 99 \
                    -fa 1 \
                    --no-mmap \
                    --tensor-split 0 \
                    --cont-batching \
                    --cache-type-k q4_0 --cache-type-v q4_0 \
                    --host 0.0.0.0 --port 11435
                  

                  Vulkan 版(start-qwen-b-vk.sh,decode +27%):

                  export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
                  export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  
                  numactl --cpunodebind=0 --membind=0 llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
                    --host 0.0.0.0 --port 11435 \
                    -c 131072 -ngl 99 \
                    -b 512 -ub 512 \
                    --no-mmap \
                    --main-gpu 0 \
                    --cont-batching \
                    --cache-type-k q4_0 --cache-type-v q4_0
                  

                  关键参数说明

                  参数 含义 为什么这么设
                  -c 131072 上下文窗口 128K IQ4_XS 显存余量充足(~15.6 GB/24 GB)
                  -ctk q4_0 -ctv q4_0 KV 缓存 q4_0 ROCm 上 q4_0 速度等同 q8_0,体积减半
                  -fa 1 Flash Attention 提升 prefill 50%+,仅 ROCm 可用
                  --tensor-split 0 锁单卡 防 IO 延迟波动
                  --cont-batching 连续批处理 多请求并发时有效
                  -b 512 -ub 512 batch/ubatch 512 省显存,不影响速度
                  --no-mmap 不进 page cache 防 X99 劣化

                  ⚠️ Vulkan 注意事项

                  • -fa 1 在 Vulkan 上不可用,会导致模型 fallback CPU
                  • VK_ICD_FILENAMES 仅加载 AMD 驱动,3080 Ti 不会被拉入
                  • 短 prompt 场景强烈推荐 Vulkan(decode +27%),长 prompt 切回 ROCm

                  适用场景

                  • 长文本写作:小说、论文、技术文档(128K 上下文)
                  • 文档处理:分析长报告、源代码库
                  • 聊天/日常使用:短 prompt 用 Vulkan 后端,长对话用 ROCm
                  • Hermes 后端:配合 start-comfyui-with-qwen.sh 分卡并行

                  模式 C — MTP 自我投机解码(~40 tok/s)

                  性能(ROCm 7.14 + HSA_XNACK=1)

                  测试项 q4_0/q4_0 KV q8_0/q8_0 KV 变化
                  AR pp512 946 t/s 956 t/s -1%
                  AR tg128 29.7 t/s 30.1 t/s -1.4%
                  MTP cli Prompt 52.7 t/s 52.5 t/s 持平
                  MTP cli Generation 39.8 t/s 🚀 34.8 t/s +14.4%
                  KV 体积 (vs bf16) 28.1% 🚀 53.1% -47%

                  关键发现:q4_0/q4_0 KV 在 MTP 模式下比 q8_0 更快!原因是 KV 带宽减少 47%,利好多 token 投机生成。Anbeeld 99.9% 尾部精度 89.84%(vs q8_0 的 94.61%),质量可接受。

                  MTP 接受率:~76%(预热后),短对话先跑 ngram 缓存填充期。

                  启动参数

                  export HSA_XNACK=1
                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                  export LD_LIBRARY_PATH=/opt/rocm-7.14-therock/lib:$LD_LIBRARY_PATH
                  
                  numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-rocm-7.14/bin/llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                    --host 0.0.0.0 --port 11435 \
                    -c 65536 \
                    -fa 1 \
                    --spec-type draft-mtp \
                    --spec-draft-n-max 3 \
                    --batch-size 2048 --ubatch-size 512 \
                    -ctk q4_0 -ctv q4_0 \
                    --no-mmap \
                    --tensor-split 0 \
                    --reasoning off \
                    --swa-checkpoints 0 \
                    --ctx-checkpoints 69 \
                    --repeat-penalty 1.1 --repeat-last-n 64 \
                    --temp 0.4 --top-p 0.95 --top-k 20
                  

                  关键参数说明

                  参数 含义 为什么必须加
                  --spec-type draft-mtp MTP 自我投机 核心特性
                  --spec-draft-n-max 3 每次投机 3 个 token 甜点值
                  --reasoning off 禁用思考模式 必须:否则 content 永远为空
                  --repeat-penalty 1.1 --repeat-last-n 64 防重复循环 MTP 血训
                  --temp 0.4 --top-p 0.95 --top-k 20 AGI 社区甜点采样 平衡创造性与准确度
                  --swa-checkpoints 0 关闭 SWA checkpoint 根治 60K token re-prefill 卡顿
                  --ctx-checkpoints 69 每 69 层 checkpoint 防长上下文 OOM

                  VRAM 预算(q4_0 KV, 65K)

                  模型权重:        16.7 GB
                  MTP head 开销:   0.4 GB
                  q4_0 KV (65K):  ~2.8 GB
                  合计峰值:       ~19.9 GB / 24 GB(余量 4.1 GB)
                  

                  为什么不选 ROCm 7.2? 模式 C 的 MTP 模型在 ROCm 7.14 + XNACK=1 上 decode 快 11%(24.85 vs 22.15 t/s),且 7.2 上 server 模式启动就崩溃。

                  适用场景

                  • 日常聊天:Hermes 后端首选
                  • 编程助手:MTP 投机在代码生成中接受率很高
                  • 需要 API server 的场景:模式 A(DFlash)只有跑分工具,模式 C 有完整 OpenAI API
                  • 中长对话:预热后 MTP 接受率接近 100%

                  二、双卡模式 (D / E / F)

                  双卡用 GPU 0+1(XFX + Sapphire),自动停 ComfyUI。

                  总览

                  模式 速度 模型 量化 端口 引擎
                  D (layer) ~29 / 36.6 tok/s Huihui Q4_K_M Q4_K_M 18080 ROCm / Vulkan
                  D (MTP) ~22.5 tok/s HauhauCS MTP Q4_K_P Q4_K_P 18080 ROCm layer
                  E (Q8_0) ~23 tok/s DavidAU / ggml-org Q8_0 Q8_0 ★★★★★ 18081 ROCm layer
                  F (tensor) 38-172 tok/s 🏆 HauhauCS MTP Q4_K_P Q4_K_P 18080 CainSay fork

                  模式 D — 双卡 layer split(29 / 36.6 tok/s)

                  性能对比

                  后端 Prefill (pp512) Decode (tg128) 相对
                  ROCm 7.2 (q4_0) 888 t/s 22.5 t/s —
                  ROCm 7.14 + XNACK (q4_0) 854 t/s 24.78 t/s tg +12% 🚀
                  Vulkan (q4_0) 285 t/s (-68%) 36.6 t/s (+63%) 🚀 长生成最优

                  启动参数(ROCm Huihui Q4_K_M)

                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                  export HIP_VISIBLE_DEVICES=0,1
                  
                  numactl --cpunodebind=0 --membind=0 llama-server \
                    -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
                    --host 0.0.0.0 --port 18080 \
                    -c 65536 -fa 1 \
                    --split-mode layer \
                    --cache-type-k q4_0 --cache-type-v q4_0 \
                    -b 1024 -ub 1024 \
                    --no-mmap
                  

                  启动参数(Vulkan,decode +63%)

                  export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
                  export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  
                  numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-vulkan-new/bin/llama-server \
                    -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
                    --host 0.0.0.0 --port 18080 \
                    -c 65536 \
                    --split-mode layer \
                    --cache-type-k q4_0 --cache-type-v q4_0 \
                    -b 512 -ub 512 \
                    --no-mmap
                  

                  启动参数(双卡 MTP layer,HauhauCS MTP 模型)

                  export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
                  export NCCL_P2P_DISABLE=1 RCCL_P2P_DISABLE=1
                  export NCCL_PROTO=Simple
                  export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                  
                  numactl --cpunodebind=0 --membind=0 llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                    --host 0.0.0.0 --port 18080 \
                    -c 65536 -fa 1 \
                    --split-mode layer --tensor-split 1,1 \
                    --spec-type draft-mtp --spec-draft-n-max 3 \
                    --cache-type-k q4_0 --cache-type-v q4_0 \
                    --no-mmap
                  

                  ⚠️ P2P 说明:双卡间 hipDeviceCanAccessPeer=0(不同 root port),必须设置 NCCL_P2P_DISABLE=1 + RCCL_P2P_DISABLE=1,否则 layer split 初始化死锁。

                  适用场景

                  • 双卡稳定性首选:layer split 最成熟、最稳定
                  • Vulkan 长生成:如果 prompt 短(<2K tokens),Vulkan decode 比 ROCm 快 63%
                  • 中间过渡方案:从单卡升级到双卡的最佳起点

                  模式 E — 双卡 Q8_0 最高精度(~23 tok/s)

                  性能

                  • AR decode: ~23 tok/s(双卡 layer split)
                  • Prefill: 受 Q8_0 大模型(29.9G)和 X99 PCIe 3.0/魔改4.0 瓶颈限制
                  • 质量:★★★★★ — 社区公认 Qwen3.6-27B 最佳变体(DavidAU NEO-CODE-HERE)

                  启动参数

                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                  export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
                  export NCCL_PROTO=Simple
                  export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                  
                  numactl --cpunodebind=0 --membind=0 llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-NEO-CODE-HERE-2T-OT-HIGH-Q8_0.gguf \
                    --host 0.0.0.0 --port 18081 \
                    -c 65536 -fa 1 \
                    --split-mode layer --tensor-split 1,1 \
                    --cache-type-k q8_0 --cache-type-v q8_0 \
                    -b 256 -ub 64 \
                    -fit off
                  

                  几个坑

                  • -fit off:关闭 KV cache 大小自适应,防 OOM
                  • 小 batch(256/64):Q8_0 KV 显存占用大,必须保守
                  • -c 65536:131K 塞不下(双卡 48G 显存,Q8_0 模型 29.9G + Q8_0 KV 在 65K 下已近顶)

                  适用场景

                  • 代码任务:DavidAU 变体专为代码优化(2T token 预训练)
                  • 高质量输出场景:Q8_0 量化几乎没有精度损失
                  • 对比基准:用于和其他量化(Q4_K_M, IQ4_XS)做质量对比
                  • 必须双卡:Q8_0 29.9G 单卡 24GB 塞不下

                  模式 F — 双卡 tensor MTP+ngram(38-172 tok/s 🏆)

                  (编者注:这个模式跟大佬的性能差距打破了我对LLM大模型不吃CPU的刻板认知)

                  性能

                  场景 速度 说明
                  短对话(X99 DDR4) ~38 tok/s ngram 缓存初始化期
                  长文本(X99 预热后) ~43 tok/s MTP 接受率 ~86%
                  长文本(Ryzen 9700X 参考) 140-172 tok/s 🏆 X99 DDR4 是瓶颈
                  基准 MTP gen 52.7 t/s (prompt) / 39.8 t/s (gen) 单卡 q4_0 KV 参考

                  启动参数

                  export HSA_OVERRIDE_GFX_VERSION=11.0.0
                  export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                  export HIP_VISIBLE_DEVICES=0,1
                  export NCCL_PROTO=Simple
                  export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                  
                  numactl --cpunodebind=0 --membind=0 /home/peter/llama-cainsay/build-hip/bin/llama-server \
                    -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                    --host 0.0.0.0 --port 18080 \
                    -c 65536 -fa 1 \
                    --kv-unified \
                    --split-mode tensor --tensor-split 7,7 \
                    --cache-type-k q8_0 --cache-type-v q8_0 \
                    -b 1024 -ub 1024 \
                    --spec-type draft-mtp,ngram-mod,ngram-map-k4v \
                    --spec-draft-n-max 4 \
                    --spec-ngram-map-k4v-size-m 64 \
                    --repeat-penalty 1.1 --repeat-last-n 64 \
                    --reasoning off \
                    --temp 0.4 --top-p 0.95 --top-k 20 \
                    -np 1 \
                    --no-mmap
                  

                  关键参数说明

                  参数 含义 为什么
                  --split-mode tensor --tensor-split 7,7 张量并行 双卡 7:7 平分层数
                  --spec-type draft-mtp,ngram-mod,ngram-map-k4v 三重投机 MTP + ngram + map 链式投机
                  --spec-draft-n-max 4 每步投机 4 token ngram 链式最大收益
                  --spec-ngram-map-k4v-size-m 64 ngram map 大小 64M 缓存上下文匹配
                  --kv-unified 统一 KV tensor split 必需
                  -np 1 单批处理 必须:防 GGML 内存池崩溃
                  -ctk q8_0 -ctv q8_0 KV q8_0 只能 q8_0:q4_0 触 tensor split GGML_ASSERT

                  ⚠️ 限制

                  • 只能 q8_0 KV:llama_params_fit 未为 SPLIT_MODE_TENSOR 实现,q4_0 触发 GGML_ASSERT 崩溃
                  • SWA checkpoint bug:CainSay fork 和 upstream 一样,>60K context 后 SWA checkpoint 失效,触全量 re-prefill(2-3 分钟卡顿)
                  • 需要 CainSay fork(fix/split-mode-tensor-quant-kv 分支),upstream 没有 tensor split

                  适用场景

                  • 双卡最强输出:tensor split + MTP + ngram 三重投机,预热后极快
                  • 长文本生成:预热后稳定 ~43 tok/s(X99)、140+ tok/s(Ryzen)
                  • 适合能接受 60K 以内上下文的场景,超 60K 有 SWA bug
                  • 注意必须双卡(不能单卡 tensor split)

                  三、Vulkan 变体补充

                  变体 Decode 相对 ROCm 适用场景
                  B-Vk (单卡 IQ4_XS) 37.7 t/s +27% 🚀 短 prompt 聊天
                  D-layer-Vk (双卡 layer) 36.6 t/s +63% 🚀 长文本生成
                  B (ROCm) 29.7 t/s — 长 prompt
                  D-layer (ROCm) 22.5 t/s — 极长 prompt

                  Vulkan 特点:decode 恒定(不受 batch 大小影响),推荐 b=512 ub=512 或 b=1024 ub=512。❌ -fa 1 不可用。⚠️ q5_0/q4_1 KV 在 Vulkan 上可用(ROCm 不行)。编译后必须验证 --list-devices 确实显示 GPU。

                  Vulkan 选型策略

                  • prompt < 2K tokens → Vulkan(decode 快 27-63%)
                  • prompt > 2K tokens → ROCm(prefill 快 26-68%)

                  四、模式选择决策树

                  你想做什么?
                  ├── 跑分/基准测试 → 模式 A (DFlash 84 tok/s)
                  ├── 日常聊天/编程助手
                  │   ├── 短对话 → 模式 B-Vk (Vulkan 37.7 t/s) 或 模式 C (MTP 40 t/s)
                  │   └── 长对话 → 模式 B ROCm (29.7 t/s, 131K ctx)
                  ├── 长文本写作/文档处理 → 模式 B (IQ4_XS 131K)
                  ├── 代码/高质量输出 → 模式 E (Q8_0 ★★★★★)
                  ├── 双卡吞吐最大化
                  │   ├── 60K 以内上下文 → 模式 F (tensor MTP+ngram 🏆)
                  │   └── 稳定优先 → 模式 D (layer split)
                  └── 和 ComfyUI 并行运行
                      └── start-comfyui-with-qwen.sh (默认模式 B)
                  

                  五、性能测试方法论

                  所有数据来自 llama-bench 和 llama-server 实测,测试条件:

                  • 模型:Qwen3.6-27B 各量化变体
                  • 后端:ROCm 7.2.0 / 7.14-TheRock / Vulkan
                  • CPU:Intel Xeon E5-2680 v4 (DDR4 2400)
                  • GPU:双路 7900 XTX (XFX MERC + Sapphire Pulse)
                  • NVMe SSD 加载模型,非 mmap

                  测试脚本和详细方法论见 references/rocm-comparison-testing.md 和 references/cross-backend-parameter-testing-20260619.md


                  六、更新日志

                  日期 更新内容
                  2026-06-19 q4_0/q4_0 推翻旧结论:MTP 模式 +14.4%;模式 C 更新 ROCm 7.14 + XNACK=1
                  2026-06-19 Vulkan 回归测试:双卡 decode +63%;q5_0/q4_1 KV Vulkan 可用
                  2026-06-19 全局推荐 --swa-checkpoints 0 + --ctx-checkpoints 69
                  2026-06-19 新增模式 F (tensor MTP+ngram) 和 CainSay fork 基准
                  2026-06-16 初始版本:6 大模式 + 命名纪律确立

                  有问题欢迎交流!硬件环境(双 7900 XTX + X99)相近的兄弟可以直接抄参数。🫡

                  至此,7900 XTX 调教/折腾/学习篇到暂告一段落了,设备要开始投入进去找路子赚钱了,感谢各位的关注~!!!

                  以下是模式C运行时的截图
                  21a3c65e-b2eb-45b3-a98e-782f660ed8be-image.jpeg

                  c193fb4c-ce78-48be-9e2b-7e3c3bc6234b-image.jpeg

                  95279897-0c63-4a7a-8672-9419e8cc5ff8-image.jpeg

                  5205c4f9-880f-4176-aef8-864f7fed9c0e-image.jpeg

                  b287e43c-46ba-4b00-a060-47d503d99fa0-image.jpeg

                  免责声明:
                  以下截图仅为展示模型性能,非搞黄色😊
                  2d1b1d7b-2544-4c61-9898-9368f8953709-image.jpeg

                  T 离线
                  T 离线
                  topgun2000
                  编写于 最后由 topgun2000 编辑
                  #11

                  @abaalei 说:

                  长文本(Ryzen 9700X 参考) 140-172 tok/s X99 DDR4 是瓶颈

                  这个大概率是因为PCI-E 5.0 vs PCI-E 3.0,两个显卡做TP,瓶颈是PCI-E,除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

                  5.0 x16 带宽是 3.0 x16的四倍

                  A 1 条回复 最后回复
                  0
                  • demoD 离线
                    demoD 离线
                    demo
                    编写于 最后由 编辑
                    #12

                    留名抄作业,十分感谢!

                    1 条回复 最后回复
                    0
                    • ,系统 取消固定了此主题
                    • T topgun2000

                      @abaalei 说:

                      长文本(Ryzen 9700X 参考) 140-172 tok/s X99 DDR4 是瓶颈

                      这个大概率是因为PCI-E 5.0 vs PCI-E 3.0,两个显卡做TP,瓶颈是PCI-E,除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

                      5.0 x16 带宽是 3.0 x16的四倍

                      A 离线
                      A 离线
                      abaalei
                      技术大牛 劳动模范
                      编写于 最后由 编辑
                      #13

                      @topgun2000 有可能,但是我这块板现在实际跑起来,是现实pcie4.0的速度的。只不过还没想起来要测试一下实际能到多少。可以试试,回头发论坛看看

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组