买了2张5060Ti，谁能跑最便宜的Qwen 27B？

comeN

双5060TI 16G跑英伟达专门为50显卡优化的Qwen3.6-27B-NVFP4-MTP的表现比双3080-20G还好，NVFP4的优化号称无损Q4,速度40-70T,论坛里面有人发的。

kos or

MTP TG 50 t/s , 這MTP 為這個Dual RTX 5060 Ti 16 GB 組合增高了不少實用價值, 假如我都還沒買顯卡試試6張 RTX 5060 Ti 16GB 組成 96GB VRAM 組 (用Workstation 主機板 6 x PCIe 4.0 x 16 lanes , 通訊速度 32 GB/s) 做Tensor Parallelism 張量並行不知道TG 表現如何？

kos or

MTP 版本需要設一個參數 Draft tokens (num_speculative_tokens or spec-draft-n-max): AI 幫我測試過最後1 或 2 是最快的參數, 你也是設定1 或 2 嗎？2 速度只比1 快了3 tokens /s 但是它有一個"準確度" 降了很多(浪費算力) 我跟AI都認同Qwen3.6-27B-MTP-GGUF 最後選擇1 是最佳MTP參數

kos or

@comeN 不知道還有這個版本我請AI幫我測試一下 Qwen3.6-27B-NVFP4-MTP (目前狀態：一早起來Deepseek V4 Flash 給我下載一個 90GB的TesnorRT-LLM, 現在又說這太大了要刪除幫我安裝一個20GB版本的TensorRT來跑測試哈哈暈了)

comeN

NVFP4号称不是无损，但损失小到感知不到，几乎等同于FP16，这可比Q4强不少。

AresROC

@kos-or 上面试的都是MTP=3。目前在研究FP4 & 升级CUDA 13.2，13.3。

kos or

我用的是llama.cpp + Ubuntu + 2 x RTX5070 Ti in PP 來跑同樣一個模型, 最佳MTP draft-n 設定居然會不同有趣了

抡锤者

买了2张5060Ti，谁能跑最便宜的Qwen 27B？