跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Qwen3.6-27B 六大启动模式详解:性能、参数与场景

Qwen3.6-27B 六大启动模式详解:性能、参数与场景

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 8 发布者 536 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • imbiplaza ASUSI 离线
    imbiplaza ASUSI 离线
    imbiplaza ASUS
    技术大牛 劳动模范
    编写于 最后由 编辑
    #3

    留名学习yellow prompt....

    1 条回复 最后回复
    0
    • M 离线
      M 离线
      mark
      超凡大师
      编写于 最后由 编辑
      #4

      质量很高. 先留言,后学习.

      1 条回复 最后回复
      0
      • williamlouisW 离线
        williamlouisW 离线
        williamlouis
        超级版主
        编写于 最后由 编辑
        #5

        辛苦了大牛哥。棒棒哒。很全面的总结

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        A 1 条回复 最后回复
        1
        • ,williamlouisW williamlouis 固定了此主题
        • williamlouisW williamlouis

          辛苦了大牛哥。棒棒哒。很全面的总结

          A 离线
          A 离线
          abaalei
          技术大牛 劳动模范
          编写于 最后由 编辑
          #6

          @williamlouis
          哈哈,不牛不牛,只是心痛我的账单😰 😰
          8cd37f6c-43a8-43be-99d9-be4510fed70d-image.jpeg
          还没算上白嫖gemini的
          e946cef7-4aea-437c-86a8-fcdd7f6c890e-image.jpeg

          5a9b2d97-089d-4729-8746-e5fac158db42-image.jpeg

          williamlouisW 1 条回复 最后回复
          1
          • A abaalei

            @williamlouis
            哈哈,不牛不牛,只是心痛我的账单😰 😰
            8cd37f6c-43a8-43be-99d9-be4510fed70d-image.jpeg
            还没算上白嫖gemini的
            e946cef7-4aea-437c-86a8-fcdd7f6c890e-image.jpeg

            5a9b2d97-089d-4729-8746-e5fac158db42-image.jpeg

            williamlouisW 离线
            williamlouisW 离线
            williamlouis
            超级版主
            编写于 最后由 编辑
            #7

            @abaalei 知足常乐。兄弟。你已经选用了最经济的模型。 换个其他的你就知道什么叫肉疼。

            个人主页:xlkj.org Telegram https://t.me/xlkjorg

            A 1 条回复 最后回复
            0
            • williamlouisW williamlouis

              @abaalei 知足常乐。兄弟。你已经选用了最经济的模型。 换个其他的你就知道什么叫肉疼。

              A 离线
              A 离线
              abaalei
              技术大牛 劳动模范
              编写于 最后由 编辑
              #8

              @williamlouis
              哈哈,这倒确实。不用说其它了,就看我白嫖gemini的7天200美元的账单,都觉得肉痛。😢

              1 条回复 最后回复
              0
              • Grayson RenG 离线
                Grayson RenG 离线
                Grayson Ren
                编写于 最后由 编辑
                #9

                准备搭个同样硬件抄作业

                williamlouisW 1 条回复 最后回复
                1
                • Grayson RenG Grayson Ren

                  准备搭个同样硬件抄作业

                  williamlouisW 离线
                  williamlouisW 离线
                  williamlouis
                  超级版主
                  编写于 最后由 编辑
                  #10

                  @Grayson-Ren 亲测 7900XTX 24G 可以做为门槛。做到入门级使用。可以干很多小显存项目。期待优化。
                  近期观察有 炒股,生图,无限制版小说,小短片等能力。

                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                  1 条回复 最后回复
                  0
                  • A abaalei

                    硬件环境:双路 7900 XTX (XFX MERC + Sapphire Pulse) + NVIDIA 3080 Ti (ACE-Step) | X99 DDR4-64G | ROCm 7.2.0/7.14 + Vulkan 双后端

                    编者注:
                    简而言之,对我来说
                    1.日常 Comfyui+Qwen 的话就选择----------### 模式 C — MTP 自我投机解码
                    2.写小说 --------------------------------### 模式 B — IQ4_XS 128K 长文本写作(30 / 37.7 tok/s)
                    3.想找个人/对象瞎聊一通--------------------### 模式 A — DFlash 投机解码(84 tok/s ⚡纯跑分)
                    3.想要双卡 进行Debug或者安全漏洞查测,就用---### 模式 E — 双卡 Q8_0 最高精度(~23 tok/s)

                    前言

                    自从折腾上 Qwen3.6-27B 后,根据不同使用场景摸索出了 6 个标准模式(A/B/C 单卡 + D/E/F 双卡),外加 2 个 Vulkan 变体。每个模式针对不同的量化、后端、推理策略做了取舍。这篇文章把这些模式的性能数据、启动参数、适用场景完整整理出来,给后来者参考,也方便自己查阅。

                    模式命名规范:A/B/C = 单卡(用 XFX MERC,不影响 ComfyUI),D/E/F = 双卡(占用两张 7900 XTX,需停 ComfyUI)。Vulkan 变体加 -Vk 后缀。


                    一、单卡模式 (A / B / C)

                    单卡统一用 XFX MERC(HIP_VISIBLE_DEVICES=0, UUID GPU-8accafcdfee6fc4f),端口 11435,Sapphire Pulse 上的 ComfyUI 不受影响。

                    总览

                    模式 速度 模型大小 量化 上下文 是否有 API 后端
                    A (DFlash) 84 tok/s 🏆 15.4G+1.8G Q4_K_M + Q8 draft 32K ❌ bench only ROCm 7.2
                    B (IQ4_XS) ~30 / 37.7 tok/s 14G IQ4_XS (4.25 bpw) 131K 🏆 ✅ ROCm / Vulkan
                    C (MTP) ~40 tok/s 16.7G MTP Q4_K_P (65层) 65K ✅ ROCm 7.14

                    模式 A — DFlash 投机解码(84 tok/s ⚡纯跑分)

                    性能

                    • 单卡生成速度:~84 tok/s(Intel XEON E5-2680 v4 上验证)
                    • 使用 DFlash 草稿模型做投机解码,MTP 接受率 ~75%
                    • 限制:只能用 test_dflash / bench_he.py 跑分,没有 llama-server,没有 OpenAI API

                    启动参数

                    export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                    export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    cd /home/peter/lucebox-hub/dflash
                    
                    numactl --cpunodebind=0 --membind=0 python3 scripts/server.py \
                      --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' \
                      --draft models/dflash-draft-3.6-q8_0.gguf \
                      --budget 8 \
                      --max-ctx 32768 \
                      --fa-window 0 \
                      --tokenizer Qwen/Qwen3.6-27B \
                      --cache-type-k q8_0 \
                      --cache-type-v q4_0 \
                      --host 0.0.0.0 --port 11435
                    

                    适用场景

                    • 纯跑分/基准测试:验证硬件、对比投机策略效果
                    • 研究用途:DFlash 架构实验,不用于日常使用
                    • ⚠️ 如果你需要速度且有 API server,选模式 C(MTP)更好

                    血训:严禁把模式 A 的模型 + 标准 AR 引擎称为"模式 A"。正确命名应该是 A-AR(四不像,~30 tok/s 无投机),这已经是个独立配置,和模式 A(DFlash 84 tok/s)完全不同。


                    模式 B — IQ4_XS 128K 长文本写作(30 / 37.7 tok/s)

                    性能

                    后端 Prefill (pp512) Decode (tg128) 相对 ROCm
                    ROCm 7.2.0 946 t/s 29.7 t/s —
                    Vulkan 697 t/s (-26%) 37.7 t/s (+27%) 🚀 短 prompt 优
                    ROCm 7.14 + XNACK=1 ~950 t/s ~29.4 t/s ❌无收益

                    键发现:IQ4_XS 在 ROCm 7.14 + HSA_XNACK=1 上无收益(pp+1%, tg-2%)。高压缩比量化(4.25 bpw)的访存模式不利于 XNACK 机制。

                    启动参数

                    ROCm 版(start-qwen-b.sh):

                    export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-rocm/bin:/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                    export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    
                    numactl --cpunodebind=0 --membind=0 llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
                      -c 131072 -ngl 99 \
                      -fa 1 \
                      --no-mmap \
                      --tensor-split 0 \
                      --cont-batching \
                      --cache-type-k q4_0 --cache-type-v q4_0 \
                      --host 0.0.0.0 --port 11435
                    

                    Vulkan 版(start-qwen-b-vk.sh,decode +27%):

                    export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
                    export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    
                    numactl --cpunodebind=0 --membind=0 llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
                      --host 0.0.0.0 --port 11435 \
                      -c 131072 -ngl 99 \
                      -b 512 -ub 512 \
                      --no-mmap \
                      --main-gpu 0 \
                      --cont-batching \
                      --cache-type-k q4_0 --cache-type-v q4_0
                    

                    关键参数说明

                    参数 含义 为什么这么设
                    -c 131072 上下文窗口 128K IQ4_XS 显存余量充足(~15.6 GB/24 GB)
                    -ctk q4_0 -ctv q4_0 KV 缓存 q4_0 ROCm 上 q4_0 速度等同 q8_0,体积减半
                    -fa 1 Flash Attention 提升 prefill 50%+,仅 ROCm 可用
                    --tensor-split 0 锁单卡 防 IO 延迟波动
                    --cont-batching 连续批处理 多请求并发时有效
                    -b 512 -ub 512 batch/ubatch 512 省显存,不影响速度
                    --no-mmap 不进 page cache 防 X99 劣化

                    ⚠️ Vulkan 注意事项

                    • -fa 1 在 Vulkan 上不可用,会导致模型 fallback CPU
                    • VK_ICD_FILENAMES 仅加载 AMD 驱动,3080 Ti 不会被拉入
                    • 短 prompt 场景强烈推荐 Vulkan(decode +27%),长 prompt 切回 ROCm

                    适用场景

                    • 长文本写作:小说、论文、技术文档(128K 上下文)
                    • 文档处理:分析长报告、源代码库
                    • 聊天/日常使用:短 prompt 用 Vulkan 后端,长对话用 ROCm
                    • Hermes 后端:配合 start-comfyui-with-qwen.sh 分卡并行

                    模式 C — MTP 自我投机解码(~40 tok/s)

                    性能(ROCm 7.14 + HSA_XNACK=1)

                    测试项 q4_0/q4_0 KV q8_0/q8_0 KV 变化
                    AR pp512 946 t/s 956 t/s -1%
                    AR tg128 29.7 t/s 30.1 t/s -1.4%
                    MTP cli Prompt 52.7 t/s 52.5 t/s 持平
                    MTP cli Generation 39.8 t/s 🚀 34.8 t/s +14.4%
                    KV 体积 (vs bf16) 28.1% 🚀 53.1% -47%

                    关键发现:q4_0/q4_0 KV 在 MTP 模式下比 q8_0 更快!原因是 KV 带宽减少 47%,利好多 token 投机生成。Anbeeld 99.9% 尾部精度 89.84%(vs q8_0 的 94.61%),质量可接受。

                    MTP 接受率:~76%(预热后),短对话先跑 ngram 缓存填充期。

                    启动参数

                    export HSA_XNACK=1
                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
                    export LD_LIBRARY_PATH=/opt/rocm-7.14-therock/lib:$LD_LIBRARY_PATH
                    
                    numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-rocm-7.14/bin/llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                      --host 0.0.0.0 --port 11435 \
                      -c 65536 \
                      -fa 1 \
                      --spec-type draft-mtp \
                      --spec-draft-n-max 3 \
                      --batch-size 2048 --ubatch-size 512 \
                      -ctk q4_0 -ctv q4_0 \
                      --no-mmap \
                      --tensor-split 0 \
                      --reasoning off \
                      --swa-checkpoints 0 \
                      --ctx-checkpoints 69 \
                      --repeat-penalty 1.1 --repeat-last-n 64 \
                      --temp 0.4 --top-p 0.95 --top-k 20
                    

                    关键参数说明

                    参数 含义 为什么必须加
                    --spec-type draft-mtp MTP 自我投机 核心特性
                    --spec-draft-n-max 3 每次投机 3 个 token 甜点值
                    --reasoning off 禁用思考模式 必须:否则 content 永远为空
                    --repeat-penalty 1.1 --repeat-last-n 64 防重复循环 MTP 血训
                    --temp 0.4 --top-p 0.95 --top-k 20 AGI 社区甜点采样 平衡创造性与准确度
                    --swa-checkpoints 0 关闭 SWA checkpoint 根治 60K token re-prefill 卡顿
                    --ctx-checkpoints 69 每 69 层 checkpoint 防长上下文 OOM

                    VRAM 预算(q4_0 KV, 65K)

                    模型权重:        16.7 GB
                    MTP head 开销:   0.4 GB
                    q4_0 KV (65K):  ~2.8 GB
                    合计峰值:       ~19.9 GB / 24 GB(余量 4.1 GB)
                    

                    为什么不选 ROCm 7.2? 模式 C 的 MTP 模型在 ROCm 7.14 + XNACK=1 上 decode 快 11%(24.85 vs 22.15 t/s),且 7.2 上 server 模式启动就崩溃。

                    适用场景

                    • 日常聊天:Hermes 后端首选
                    • 编程助手:MTP 投机在代码生成中接受率很高
                    • 需要 API server 的场景:模式 A(DFlash)只有跑分工具,模式 C 有完整 OpenAI API
                    • 中长对话:预热后 MTP 接受率接近 100%

                    二、双卡模式 (D / E / F)

                    双卡用 GPU 0+1(XFX + Sapphire),自动停 ComfyUI。

                    总览

                    模式 速度 模型 量化 端口 引擎
                    D (layer) ~29 / 36.6 tok/s Huihui Q4_K_M Q4_K_M 18080 ROCm / Vulkan
                    D (MTP) ~22.5 tok/s HauhauCS MTP Q4_K_P Q4_K_P 18080 ROCm layer
                    E (Q8_0) ~23 tok/s DavidAU / ggml-org Q8_0 Q8_0 ★★★★★ 18081 ROCm layer
                    F (tensor) 38-172 tok/s 🏆 HauhauCS MTP Q4_K_P Q4_K_P 18080 CainSay fork

                    模式 D — 双卡 layer split(29 / 36.6 tok/s)

                    性能对比

                    后端 Prefill (pp512) Decode (tg128) 相对
                    ROCm 7.2 (q4_0) 888 t/s 22.5 t/s —
                    ROCm 7.14 + XNACK (q4_0) 854 t/s 24.78 t/s tg +12% 🚀
                    Vulkan (q4_0) 285 t/s (-68%) 36.6 t/s (+63%) 🚀 长生成最优

                    启动参数(ROCm Huihui Q4_K_M)

                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                    export HIP_VISIBLE_DEVICES=0,1
                    
                    numactl --cpunodebind=0 --membind=0 llama-server \
                      -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
                      --host 0.0.0.0 --port 18080 \
                      -c 65536 -fa 1 \
                      --split-mode layer \
                      --cache-type-k q4_0 --cache-type-v q4_0 \
                      -b 1024 -ub 1024 \
                      --no-mmap
                    

                    启动参数(Vulkan,decode +63%)

                    export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
                    export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    
                    numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-vulkan-new/bin/llama-server \
                      -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
                      --host 0.0.0.0 --port 18080 \
                      -c 65536 \
                      --split-mode layer \
                      --cache-type-k q4_0 --cache-type-v q4_0 \
                      -b 512 -ub 512 \
                      --no-mmap
                    

                    启动参数(双卡 MTP layer,HauhauCS MTP 模型)

                    export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
                    export NCCL_P2P_DISABLE=1 RCCL_P2P_DISABLE=1
                    export NCCL_PROTO=Simple
                    export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                    
                    numactl --cpunodebind=0 --membind=0 llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                      --host 0.0.0.0 --port 18080 \
                      -c 65536 -fa 1 \
                      --split-mode layer --tensor-split 1,1 \
                      --spec-type draft-mtp --spec-draft-n-max 3 \
                      --cache-type-k q4_0 --cache-type-v q4_0 \
                      --no-mmap
                    

                    ⚠️ P2P 说明:双卡间 hipDeviceCanAccessPeer=0(不同 root port),必须设置 NCCL_P2P_DISABLE=1 + RCCL_P2P_DISABLE=1,否则 layer split 初始化死锁。

                    适用场景

                    • 双卡稳定性首选:layer split 最成熟、最稳定
                    • Vulkan 长生成:如果 prompt 短(<2K tokens),Vulkan decode 比 ROCm 快 63%
                    • 中间过渡方案:从单卡升级到双卡的最佳起点

                    模式 E — 双卡 Q8_0 最高精度(~23 tok/s)

                    性能

                    • AR decode: ~23 tok/s(双卡 layer split)
                    • Prefill: 受 Q8_0 大模型(29.9G)和 X99 PCIe 3.0/魔改4.0 瓶颈限制
                    • 质量:★★★★★ — 社区公认 Qwen3.6-27B 最佳变体(DavidAU NEO-CODE-HERE)

                    启动参数

                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                    export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
                    export NCCL_PROTO=Simple
                    export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                    
                    numactl --cpunodebind=0 --membind=0 llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-NEO-CODE-HERE-2T-OT-HIGH-Q8_0.gguf \
                      --host 0.0.0.0 --port 18081 \
                      -c 65536 -fa 1 \
                      --split-mode layer --tensor-split 1,1 \
                      --cache-type-k q8_0 --cache-type-v q8_0 \
                      -b 256 -ub 64 \
                      -fit off
                    

                    几个坑

                    • -fit off:关闭 KV cache 大小自适应,防 OOM
                    • 小 batch(256/64):Q8_0 KV 显存占用大,必须保守
                    • -c 65536:131K 塞不下(双卡 48G 显存,Q8_0 模型 29.9G + Q8_0 KV 在 65K 下已近顶)

                    适用场景

                    • 代码任务:DavidAU 变体专为代码优化(2T token 预训练)
                    • 高质量输出场景:Q8_0 量化几乎没有精度损失
                    • 对比基准:用于和其他量化(Q4_K_M, IQ4_XS)做质量对比
                    • 必须双卡:Q8_0 29.9G 单卡 24GB 塞不下

                    模式 F — 双卡 tensor MTP+ngram(38-172 tok/s 🏆)

                    (编者注:这个模式跟大佬的性能差距打破了我对LLM大模型不吃CPU的刻板认知)

                    性能

                    场景 速度 说明
                    短对话(X99 DDR4) ~38 tok/s ngram 缓存初始化期
                    长文本(X99 预热后) ~43 tok/s MTP 接受率 ~86%
                    长文本(Ryzen 9700X 参考) 140-172 tok/s 🏆 X99 DDR4 是瓶颈
                    基准 MTP gen 52.7 t/s (prompt) / 39.8 t/s (gen) 单卡 q4_0 KV 参考

                    启动参数

                    export HSA_OVERRIDE_GFX_VERSION=11.0.0
                    export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
                    export HIP_VISIBLE_DEVICES=0,1
                    export NCCL_PROTO=Simple
                    export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0
                    
                    numactl --cpunodebind=0 --membind=0 /home/peter/llama-cainsay/build-hip/bin/llama-server \
                      -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                      --host 0.0.0.0 --port 18080 \
                      -c 65536 -fa 1 \
                      --kv-unified \
                      --split-mode tensor --tensor-split 7,7 \
                      --cache-type-k q8_0 --cache-type-v q8_0 \
                      -b 1024 -ub 1024 \
                      --spec-type draft-mtp,ngram-mod,ngram-map-k4v \
                      --spec-draft-n-max 4 \
                      --spec-ngram-map-k4v-size-m 64 \
                      --repeat-penalty 1.1 --repeat-last-n 64 \
                      --reasoning off \
                      --temp 0.4 --top-p 0.95 --top-k 20 \
                      -np 1 \
                      --no-mmap
                    

                    关键参数说明

                    参数 含义 为什么
                    --split-mode tensor --tensor-split 7,7 张量并行 双卡 7:7 平分层数
                    --spec-type draft-mtp,ngram-mod,ngram-map-k4v 三重投机 MTP + ngram + map 链式投机
                    --spec-draft-n-max 4 每步投机 4 token ngram 链式最大收益
                    --spec-ngram-map-k4v-size-m 64 ngram map 大小 64M 缓存上下文匹配
                    --kv-unified 统一 KV tensor split 必需
                    -np 1 单批处理 必须:防 GGML 内存池崩溃
                    -ctk q8_0 -ctv q8_0 KV q8_0 只能 q8_0:q4_0 触 tensor split GGML_ASSERT

                    ⚠️ 限制

                    • 只能 q8_0 KV:llama_params_fit 未为 SPLIT_MODE_TENSOR 实现,q4_0 触发 GGML_ASSERT 崩溃
                    • SWA checkpoint bug:CainSay fork 和 upstream 一样,>60K context 后 SWA checkpoint 失效,触全量 re-prefill(2-3 分钟卡顿)
                    • 需要 CainSay fork(fix/split-mode-tensor-quant-kv 分支),upstream 没有 tensor split

                    适用场景

                    • 双卡最强输出:tensor split + MTP + ngram 三重投机,预热后极快
                    • 长文本生成:预热后稳定 ~43 tok/s(X99)、140+ tok/s(Ryzen)
                    • 适合能接受 60K 以内上下文的场景,超 60K 有 SWA bug
                    • 注意必须双卡(不能单卡 tensor split)

                    三、Vulkan 变体补充

                    变体 Decode 相对 ROCm 适用场景
                    B-Vk (单卡 IQ4_XS) 37.7 t/s +27% 🚀 短 prompt 聊天
                    D-layer-Vk (双卡 layer) 36.6 t/s +63% 🚀 长文本生成
                    B (ROCm) 29.7 t/s — 长 prompt
                    D-layer (ROCm) 22.5 t/s — 极长 prompt

                    Vulkan 特点:decode 恒定(不受 batch 大小影响),推荐 b=512 ub=512 或 b=1024 ub=512。❌ -fa 1 不可用。⚠️ q5_0/q4_1 KV 在 Vulkan 上可用(ROCm 不行)。编译后必须验证 --list-devices 确实显示 GPU。

                    Vulkan 选型策略

                    • prompt < 2K tokens → Vulkan(decode 快 27-63%)
                    • prompt > 2K tokens → ROCm(prefill 快 26-68%)

                    四、模式选择决策树

                    你想做什么?
                    ├── 跑分/基准测试 → 模式 A (DFlash 84 tok/s)
                    ├── 日常聊天/编程助手
                    │   ├── 短对话 → 模式 B-Vk (Vulkan 37.7 t/s) 或 模式 C (MTP 40 t/s)
                    │   └── 长对话 → 模式 B ROCm (29.7 t/s, 131K ctx)
                    ├── 长文本写作/文档处理 → 模式 B (IQ4_XS 131K)
                    ├── 代码/高质量输出 → 模式 E (Q8_0 ★★★★★)
                    ├── 双卡吞吐最大化
                    │   ├── 60K 以内上下文 → 模式 F (tensor MTP+ngram 🏆)
                    │   └── 稳定优先 → 模式 D (layer split)
                    └── 和 ComfyUI 并行运行
                        └── start-comfyui-with-qwen.sh (默认模式 B)
                    

                    五、性能测试方法论

                    所有数据来自 llama-bench 和 llama-server 实测,测试条件:

                    • 模型:Qwen3.6-27B 各量化变体
                    • 后端:ROCm 7.2.0 / 7.14-TheRock / Vulkan
                    • CPU:Intel Xeon E5-2680 v4 (DDR4 2400)
                    • GPU:双路 7900 XTX (XFX MERC + Sapphire Pulse)
                    • NVMe SSD 加载模型,非 mmap

                    测试脚本和详细方法论见 references/rocm-comparison-testing.md 和 references/cross-backend-parameter-testing-20260619.md


                    六、更新日志

                    日期 更新内容
                    2026-06-19 q4_0/q4_0 推翻旧结论:MTP 模式 +14.4%;模式 C 更新 ROCm 7.14 + XNACK=1
                    2026-06-19 Vulkan 回归测试:双卡 decode +63%;q5_0/q4_1 KV Vulkan 可用
                    2026-06-19 全局推荐 --swa-checkpoints 0 + --ctx-checkpoints 69
                    2026-06-19 新增模式 F (tensor MTP+ngram) 和 CainSay fork 基准
                    2026-06-16 初始版本:6 大模式 + 命名纪律确立

                    有问题欢迎交流!硬件环境(双 7900 XTX + X99)相近的兄弟可以直接抄参数。🫡

                    至此,7900 XTX 调教/折腾/学习篇到暂告一段落了,设备要开始投入进去找路子赚钱了,感谢各位的关注~!!!

                    以下是模式C运行时的截图
                    21a3c65e-b2eb-45b3-a98e-782f660ed8be-image.jpeg

                    c193fb4c-ce78-48be-9e2b-7e3c3bc6234b-image.jpeg

                    95279897-0c63-4a7a-8672-9419e8cc5ff8-image.jpeg

                    5205c4f9-880f-4176-aef8-864f7fed9c0e-image.jpeg

                    b287e43c-46ba-4b00-a060-47d503d99fa0-image.jpeg

                    免责声明:
                    以下截图仅为展示模型性能,非搞黄色😊
                    2d1b1d7b-2544-4c61-9898-9368f8953709-image.jpeg

                    T 离线
                    T 离线
                    topgun2000
                    编写于 最后由 topgun2000 编辑
                    #11

                    @abaalei 说:

                    长文本(Ryzen 9700X 参考) 140-172 tok/s X99 DDR4 是瓶颈

                    这个大概率是因为PCI-E 5.0 vs PCI-E 3.0,两个显卡做TP,瓶颈是PCI-E,除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

                    5.0 x16 带宽是 3.0 x16的四倍

                    A 1 条回复 最后回复
                    0
                    • demoD 离线
                      demoD 离线
                      demo
                      编写于 最后由 编辑
                      #12

                      留名抄作业,十分感谢!

                      1 条回复 最后回复
                      0
                      • ,系统 取消固定了此主题
                      • T topgun2000

                        @abaalei 说:

                        长文本(Ryzen 9700X 参考) 140-172 tok/s X99 DDR4 是瓶颈

                        这个大概率是因为PCI-E 5.0 vs PCI-E 3.0,两个显卡做TP,瓶颈是PCI-E,除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

                        5.0 x16 带宽是 3.0 x16的四倍

                        A 离线
                        A 离线
                        abaalei
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #13

                        @topgun2000 有可能,但是我这块板现在实际跑起来,是现实pcie4.0的速度的。只不过还没想起来要测试一下实际能到多少。可以试试,回头发论坛看看

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组