Qwen3.6-27B 六大启动模式详解：性能、参数与场景

abaalei

硬件环境：双路 7900 XTX (XFX MERC + Sapphire Pulse) + NVIDIA 3080 Ti (ACE-Step) | X99 DDR4-64G | ROCm 7.2.0/7.14 + Vulkan 双后端

编者注：
简而言之，对我来说
1.日常 Comfyui+Qwen 的话就选择----------### 模式 C — MTP 自我投机解码
2.写小说 --------------------------------### 模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）
3.想找个人/对象瞎聊一通--------------------### 模式 A — DFlash 投机解码（84 tok/s 纯跑分）
3.想要双卡进行Debug或者安全漏洞查测，就用---### 模式 E — 双卡 Q8_0 最高精度（~23 tok/s）

前言

自从折腾上 Qwen3.6-27B 后，根据不同使用场景摸索出了 6 个标准模式（A/B/C 单卡 + D/E/F 双卡），外加 2 个 Vulkan 变体。每个模式针对不同的量化、后端、推理策略做了取舍。这篇文章把这些模式的性能数据、启动参数、适用场景完整整理出来，给后来者参考，也方便自己查阅。

模式命名规范：A/B/C = 单卡（用 XFX MERC，不影响 ComfyUI），D/E/F = 双卡（占用两张 7900 XTX，需停 ComfyUI）。Vulkan 变体加 -Vk 后缀。

一、单卡模式 (A / B / C)

单卡统一用 XFX MERC（HIP_VISIBLE_DEVICES=0, UUID GPU-8accafcdfee6fc4f），端口 11435，Sapphire Pulse 上的 ComfyUI 不受影响。

总览

模式	速度	模型大小	量化	上下文	是否有 API	后端
A (DFlash)	84 tok/s	15.4G+1.8G	Q4_K_M + Q8 draft	32K	bench only	ROCm 7.2
B (IQ4_XS)	~30 / 37.7 tok/s	14G	IQ4_XS (4.25 bpw)	131K		ROCm / Vulkan
C (MTP)	~40 tok/s	16.7G	MTP Q4_K_P (65层)	65K		ROCm 7.14

模式 A — DFlash 投机解码（84 tok/s 纯跑分）

性能

单卡生成速度：~84 tok/s（Intel XEON E5-2680 v4 上验证）
使用 DFlash 草稿模型做投机解码，MTP 接受率 ~75%
限制：只能用 test_dflash / bench_he.py 跑分，没有 llama-server，没有 OpenAI API

启动参数

export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0
cd /home/peter/lucebox-hub/dflash

numactl --cpunodebind=0 --membind=0 python3 scripts/server.py \
  --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' \
  --draft models/dflash-draft-3.6-q8_0.gguf \
  --budget 8 \
  --max-ctx 32768 \
  --fa-window 0 \
  --tokenizer Qwen/Qwen3.6-27B \
  --cache-type-k q8_0 \
  --cache-type-v q4_0 \
  --host 0.0.0.0 --port 11435

适用场景

纯跑分/基准测试：验证硬件、对比投机策略效果
研究用途：DFlash 架构实验，不用于日常使用
️ 如果你需要速度且有 API server，选模式 C（MTP）更好

血训：严禁把模式 A 的模型 + 标准 AR 引擎称为"模式 A"。正确命名应该是 A-AR（四不像，~30 tok/s 无投机），这已经是个独立配置，和模式 A（DFlash 84 tok/s）完全不同。

模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）

性能

后端	Prefill (pp512)	Decode (tg128)	相对 ROCm
ROCm 7.2.0	946 t/s	29.7 t/s	—
Vulkan	697 t/s (-26%)	37.7 t/s (+27%)	短 prompt 优
ROCm 7.14 + XNACK=1	~950 t/s	~29.4 t/s	无收益

键发现：IQ4_XS 在 ROCm 7.14 + HSA_XNACK=1 上无收益（pp+1%, tg-2%）。高压缩比量化（4.25 bpw）的访存模式不利于 XNACK 机制。

启动参数

ROCm 版（start-qwen-b.sh）：

export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-rocm/bin:/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
  -c 131072 -ngl 99 \
  -fa 1 \
  --no-mmap \
  --tensor-split 0 \
  --cont-batching \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --host 0.0.0.0 --port 11435

Vulkan 版（start-qwen-b-vk.sh，decode +27%）：

export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
  --host 0.0.0.0 --port 11435 \
  -c 131072 -ngl 99 \
  -b 512 -ub 512 \
  --no-mmap \
  --main-gpu 0 \
  --cont-batching \
  --cache-type-k q4_0 --cache-type-v q4_0

关键参数说明

参数	含义	为什么这么设
`-c 131072`	上下文窗口 128K	IQ4_XS 显存余量充足（~15.6 GB/24 GB）
`-ctk q4_0 -ctv q4_0`	KV 缓存 q4_0	ROCm 上 q4_0 速度等同 q8_0，体积减半
`-fa 1`	Flash Attention	提升 prefill 50%+，仅 ROCm 可用
`--tensor-split 0`	锁单卡	防 IO 延迟波动
`--cont-batching`	连续批处理	多请求并发时有效
`-b 512 -ub 512`	batch/ubatch 512	省显存，不影响速度
`--no-mmap`	不进 page cache	防 X99 劣化

️ Vulkan 注意事项

-fa 1 在 Vulkan 上不可用，会导致模型 fallback CPU
VK_ICD_FILENAMES 仅加载 AMD 驱动，3080 Ti 不会被拉入
短 prompt 场景强烈推荐 Vulkan（decode +27%），长 prompt 切回 ROCm

适用场景

长文本写作：小说、论文、技术文档（128K 上下文）
文档处理：分析长报告、源代码库
聊天/日常使用：短 prompt 用 Vulkan 后端，长对话用 ROCm
Hermes 后端：配合 start-comfyui-with-qwen.sh 分卡并行

模式 C — MTP 自我投机解码（~40 tok/s）

性能（ROCm 7.14 + HSA_XNACK=1）

测试项	q4_0/q4_0 KV	q8_0/q8_0 KV	变化
AR pp512	946 t/s	956 t/s	-1%
AR tg128	29.7 t/s	30.1 t/s	-1.4%
MTP cli Prompt	52.7 t/s	52.5 t/s	持平
MTP cli Generation	39.8 t/s	34.8 t/s	+14.4%
KV 体积 (vs bf16)	28.1%	53.1%	-47%

关键发现：q4_0/q4_0 KV 在 MTP 模式下比 q8_0 更快！原因是 KV 带宽减少 47%，利好多 token 投机生成。Anbeeld 99.9% 尾部精度 89.84%（vs q8_0 的 94.61%），质量可接受。

MTP 接受率：~76%（预热后），短对话先跑 ngram 缓存填充期。

启动参数

export HSA_XNACK=1
export HSA_OVERRIDE_GFX_VERSION=11.0.0
export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export LD_LIBRARY_PATH=/opt/rocm-7.14-therock/lib:$LD_LIBRARY_PATH

numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-rocm-7.14/bin/llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 11435 \
  -c 65536 \
  -fa 1 \
  --spec-type draft-mtp \
  --spec-draft-n-max 3 \
  --batch-size 2048 --ubatch-size 512 \
  -ctk q4_0 -ctv q4_0 \
  --no-mmap \
  --tensor-split 0 \
  --reasoning off \
  --swa-checkpoints 0 \
  --ctx-checkpoints 69 \
  --repeat-penalty 1.1 --repeat-last-n 64 \
  --temp 0.4 --top-p 0.95 --top-k 20

关键参数说明

参数	含义	为什么必须加
`--spec-type draft-mtp`	MTP 自我投机	核心特性
`--spec-draft-n-max 3`	每次投机 3 个 token	甜点值
`--reasoning off`	禁用思考模式	必须：否则 content 永远为空
`--repeat-penalty 1.1 --repeat-last-n 64`	防重复循环	MTP 血训
`--temp 0.4 --top-p 0.95 --top-k 20`	AGI 社区甜点采样	平衡创造性与准确度
`--swa-checkpoints 0`	关闭 SWA checkpoint	根治 60K token re-prefill 卡顿
`--ctx-checkpoints 69`	每 69 层 checkpoint	防长上下文 OOM

VRAM 预算（q4_0 KV, 65K）

模型权重:        16.7 GB
MTP head 开销:   0.4 GB
q4_0 KV (65K):  ~2.8 GB
合计峰值:       ~19.9 GB / 24 GB（余量 4.1 GB）

为什么不选 ROCm 7.2？ 模式 C 的 MTP 模型在 ROCm 7.14 + XNACK=1 上 decode 快 11%（24.85 vs 22.15 t/s），且 7.2 上 server 模式启动就崩溃。

适用场景

日常聊天：Hermes 后端首选
编程助手：MTP 投机在代码生成中接受率很高
需要 API server 的场景：模式 A（DFlash）只有跑分工具，模式 C 有完整 OpenAI API
中长对话：预热后 MTP 接受率接近 100%

二、双卡模式 (D / E / F)

双卡用 GPU 0+1（XFX + Sapphire），自动停 ComfyUI。

总览

模式	速度	模型	量化	端口	引擎
D (layer)	~29 / 36.6 tok/s	Huihui Q4_K_M	Q4_K_M	18080	ROCm / Vulkan
D (MTP)	~22.5 tok/s	HauhauCS MTP Q4_K_P	Q4_K_P	18080	ROCm layer
E (Q8_0)	~23 tok/s	DavidAU / ggml-org Q8_0	Q8_0 ★★★★★	18081	ROCm layer
F (tensor)	38-172 tok/s	HauhauCS MTP Q4_K_P	Q4_K_P	18080	CainSay fork

模式 D — 双卡 layer split（29 / 36.6 tok/s）

性能对比

后端	Prefill (pp512)	Decode (tg128)	相对
ROCm 7.2 (q4_0)	888 t/s	22.5 t/s	—
ROCm 7.14 + XNACK (q4_0)	854 t/s	24.78 t/s	tg +12%
Vulkan (q4_0)	285 t/s (-68%)	36.6 t/s (+63%)	长生成最优

启动参数（ROCm Huihui Q4_K_M）

export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=0,1

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --split-mode layer \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  -b 1024 -ub 1024 \
  --no-mmap

启动参数（Vulkan，decode +63%）

export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-vulkan-new/bin/llama-server \
  -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 \
  --split-mode layer \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  -b 512 -ub 512 \
  --no-mmap

启动参数（双卡 MTP layer，HauhauCS MTP 模型）

export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
export NCCL_P2P_DISABLE=1 RCCL_P2P_DISABLE=1
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --split-mode layer --tensor-split 1,1 \
  --spec-type draft-mtp --spec-draft-n-max 3 \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --no-mmap

️ P2P 说明：双卡间 hipDeviceCanAccessPeer=0（不同 root port），必须设置 NCCL_P2P_DISABLE=1 + RCCL_P2P_DISABLE=1，否则 layer split 初始化死锁。

适用场景

双卡稳定性首选：layer split 最成熟、最稳定
Vulkan 长生成：如果 prompt 短（<2K tokens），Vulkan decode 比 ROCm 快 63%
中间过渡方案：从单卡升级到双卡的最佳起点

模式 E — 双卡 Q8_0 最高精度（~23 tok/s）

性能

AR decode: ~23 tok/s（双卡 layer split）
Prefill: 受 Q8_0 大模型（29.9G）和 X99 PCIe 3.0/魔改4.0 瓶颈限制
质量：★★★★★ — 社区公认 Qwen3.6-27B 最佳变体（DavidAU NEO-CODE-HERE）

启动参数

export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-NEO-CODE-HERE-2T-OT-HIGH-Q8_0.gguf \
  --host 0.0.0.0 --port 18081 \
  -c 65536 -fa 1 \
  --split-mode layer --tensor-split 1,1 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -b 256 -ub 64 \
  -fit off

几个坑

-fit off：关闭 KV cache 大小自适应，防 OOM
小 batch（256/64）：Q8_0 KV 显存占用大，必须保守
-c 65536：131K 塞不下（双卡 48G 显存，Q8_0 模型 29.9G + Q8_0 KV 在 65K 下已近顶）

适用场景

代码任务：DavidAU 变体专为代码优化（2T token 预训练）
高质量输出场景：Q8_0 量化几乎没有精度损失
对比基准：用于和其他量化（Q4_K_M, IQ4_XS）做质量对比
必须双卡：Q8_0 29.9G 单卡 24GB 塞不下

模式 F — 双卡 tensor MTP+ngram（38-172 tok/s ）

（编者注：这个模式跟大佬的性能差距打破了我对LLM大模型不吃CPU的刻板认知）

性能

场景	速度	说明
短对话（X99 DDR4）	~38 tok/s	ngram 缓存初始化期
长文本（X99 预热后）	~43 tok/s	MTP 接受率 ~86%
长文本（Ryzen 9700X 参考）	140-172 tok/s	X99 DDR4 是瓶颈
基准 MTP gen	52.7 t/s (prompt) / 39.8 t/s (gen)	单卡 q4_0 KV 参考

启动参数

export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=0,1
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 /home/peter/llama-cainsay/build-hip/bin/llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --kv-unified \
  --split-mode tensor --tensor-split 7,7 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -b 1024 -ub 1024 \
  --spec-type draft-mtp,ngram-mod,ngram-map-k4v \
  --spec-draft-n-max 4 \
  --spec-ngram-map-k4v-size-m 64 \
  --repeat-penalty 1.1 --repeat-last-n 64 \
  --reasoning off \
  --temp 0.4 --top-p 0.95 --top-k 20 \
  -np 1 \
  --no-mmap

关键参数说明

参数	含义	为什么
`--split-mode tensor --tensor-split 7,7`	张量并行	双卡 7:7 平分层数
`--spec-type draft-mtp,ngram-mod,ngram-map-k4v`	三重投机	MTP + ngram + map 链式投机
`--spec-draft-n-max 4`	每步投机 4 token	ngram 链式最大收益
`--spec-ngram-map-k4v-size-m 64`	ngram map 大小 64M	缓存上下文匹配
`--kv-unified`	统一 KV	tensor split 必需
`-np 1`	单批处理	必须：防 GGML 内存池崩溃
`-ctk q8_0 -ctv q8_0`	KV q8_0	只能 q8_0：q4_0 触 tensor split GGML_ASSERT

️ 限制

只能 q8_0 KV：llama_params_fit 未为 SPLIT_MODE_TENSOR 实现，q4_0 触发 GGML_ASSERT 崩溃
SWA checkpoint bug：CainSay fork 和 upstream 一样，>60K context 后 SWA checkpoint 失效，触全量 re-prefill（2-3 分钟卡顿）
需要 CainSay fork（fix/split-mode-tensor-quant-kv 分支），upstream 没有 tensor split

适用场景

双卡最强输出：tensor split + MTP + ngram 三重投机，预热后极快
长文本生成：预热后稳定 ~43 tok/s（X99）、140+ tok/s（Ryzen）
适合能接受 60K 以内上下文的场景，超 60K 有 SWA bug
注意必须双卡（不能单卡 tensor split）

三、Vulkan 变体补充

变体	Decode	相对 ROCm	适用场景
B-Vk (单卡 IQ4_XS)	37.7 t/s	+27%	短 prompt 聊天
D-layer-Vk (双卡 layer)	36.6 t/s	+63%	长文本生成
B (ROCm)	29.7 t/s	—	长 prompt
D-layer (ROCm)	22.5 t/s	—	极长 prompt

Vulkan 特点：decode 恒定（不受 batch 大小影响），推荐 b=512 ub=512 或 b=1024 ub=512。 -fa 1 不可用。️ q5_0/q4_1 KV 在 Vulkan 上可用（ROCm 不行）。编译后必须验证 --list-devices 确实显示 GPU。

Vulkan 选型策略

prompt < 2K tokens → Vulkan（decode 快 27-63%）
prompt > 2K tokens → ROCm（prefill 快 26-68%）

四、模式选择决策树

你想做什么？
├── 跑分/基准测试 → 模式 A (DFlash 84 tok/s)
├── 日常聊天/编程助手
│   ├── 短对话 → 模式 B-Vk (Vulkan 37.7 t/s) 或 模式 C (MTP 40 t/s)
│   └── 长对话 → 模式 B ROCm (29.7 t/s, 131K ctx)
├── 长文本写作/文档处理 → 模式 B (IQ4_XS 131K)
├── 代码/高质量输出 → 模式 E (Q8_0 ★★★★★)
├── 双卡吞吐最大化
│   ├── 60K 以内上下文 → 模式 F (tensor MTP+ngram 🏆)
│   └── 稳定优先 → 模式 D (layer split)
└── 和 ComfyUI 并行运行
    └── start-comfyui-with-qwen.sh (默认模式 B)

五、性能测试方法论

所有数据来自 llama-bench 和 llama-server 实测，测试条件：

模型：Qwen3.6-27B 各量化变体
后端：ROCm 7.2.0 / 7.14-TheRock / Vulkan
CPU：Intel Xeon E5-2680 v4 (DDR4 2400)
GPU：双路 7900 XTX (XFX MERC + Sapphire Pulse)
NVMe SSD 加载模型，非 mmap

测试脚本和详细方法论见 references/rocm-comparison-testing.md 和 references/cross-backend-parameter-testing-20260619.md

六、更新日志

日期	更新内容
2026-06-19	q4_0/q4_0 推翻旧结论：MTP 模式 +14.4%；模式 C 更新 ROCm 7.14 + XNACK=1
2026-06-19	Vulkan 回归测试：双卡 decode +63%；q5_0/q4_1 KV Vulkan 可用
2026-06-19	全局推荐 `--swa-checkpoints 0` + `--ctx-checkpoints 69`
2026-06-19	新增模式 F (tensor MTP+ngram) 和 CainSay fork 基准
2026-06-16	初始版本：6 大模式 + 命名纪律确立

有问题欢迎交流！硬件环境（双 7900 XTX + X99）相近的兄弟可以直接抄参数。🫡

至此，7900 XTX 调教/折腾/学习篇到暂告一段落了，设备要开始投入进去找路子赚钱了，感谢各位的关注~！！！

以下是模式C运行时的截图

免责声明：
以下截图仅为展示模型性能，非搞黄色

tom23

感谢分享留好作业准备抄了

imbiplaza ASUS

留名学习yellow prompt....

mark

质量很高. 先留言,后学习.

williamlouis

辛苦了大牛哥。棒棒哒。很全面的总结

abaalei

@williamlouis
哈哈，不牛不牛，只是心痛我的账单

还没算上白嫖gemini的

williamlouis

@abaalei 知足常乐。兄弟。你已经选用了最经济的模型。换个其他的你就知道什么叫肉疼。

abaalei

@williamlouis
哈哈，这倒确实。不用说其它了，就看我白嫖gemini的7天200美元的账单，都觉得肉痛。

Grayson Ren

准备搭个同样硬件抄作业

williamlouis

@Grayson-Ren 亲测 7900XTX 24G 可以做为门槛。做到入门级使用。可以干很多小显存项目。期待优化。
近期观察有炒股，生图，无限制版小说，小短片等能力。

topgun2000 · 2026-06-19

@abaalei 说:

长文本（Ryzen 9700X 参考） 140-172 tok/s X99 DDR4 是瓶颈

这个大概率是因为PCI-E 5.0 vs PCI-E 3.0，两个显卡做TP，瓶颈是PCI-E，除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

5.0 x16 带宽是 3.0 x16的四倍

demo

留名抄作业，十分感谢！

abaalei

@topgun2000 有可能，但是我这块板现在实际跑起来，是现实pcie4.0的速度的。只不过还没想起来要测试一下实际能到多少。可以试试，回头发论坛看看

抡锤者

Qwen3.6-27B 六大启动模式详解：性能、参数与场景

前言

一、单卡模式 (A / B / C)

总览

模式 A — DFlash 投机解码（84 tok/s 纯跑分）

模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）

模式 C — MTP 自我投机解码（~40 tok/s）

二、双卡模式 (D / E / F)

总览

模式 D — 双卡 layer split（29 / 36.6 tok/s）

模式 E — 双卡 Q8_0 最高精度（~23 tok/s）

模式 F — 双卡 tensor MTP+ngram（38-172 tok/s ）

三、Vulkan 变体补充

四、模式选择决策树

五、性能测试方法论

六、更新日志

前言

一、单卡模式 (A / B / C)

总览

模式 A — DFlash 投机解码（84 tok/s 纯跑分）

模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）

模式 C — MTP 自我投机解码（~40 tok/s）

二、双卡模式 (D / E / F)

总览

模式 D — 双卡 layer split（29 / 36.6 tok/s）

模式 E — 双卡 Q8_0 最高精度（~23 tok/s）

模式 F — 双卡 tensor MTP+ngram（38-172 tok/s ）

三、Vulkan 变体补充

四、模式选择决策树

五、性能测试方法论

六、更新日志