买了2张5060Ti，谁能跑最便宜的Qwen 27B？

AresROC

卡终于到货。等到天荒地老..。
马上把双卡插进去，测试.

历尽星霜岁月长，天荒地老守3090。
苍天有眼怜痴客， 5060Ti双剑合璧试锋芒！

觉得很可以用。用电少。不发热 ~ MTP TG 50 t/s

通常可以跑到30 tk/s. 用 Q6_K Ctx 96k 比 Q4_K_M Ctx128k 还快.

LM Studio Split:
3090:

5060Ti:

Q6_K 96k 显存几乎用满了

terry

@AresROC 老铁单独发个帖子吧，流程讲清楚，写成Markdown格式，截图和数据放好，我给你来个置顶。

AresROC

@terry 目前vllm Qwen3.6-27B 还是搞不定，假如成功的话再发

16+16=32GB 跑不了没有天理，
最近LmStudio出了 TP, 假如可以跑我也想试试

terry

@AresROC 加油，等你交作业。

CHAO WANG

我也想组双5060TI 16G，不知道什么效果

comeN

双5060TI 16G跑英伟达专门为50显卡优化的Qwen3.6-27B-NVFP4-MTP的表现比双3080-20G还好，NVFP4的优化号称无损Q4,速度40-70T,论坛里面有人发的。

kos or

MTP TG 50 t/s , 這MTP 為這個Dual RTX 5060 Ti 16 GB 組合增高了不少實用價值, 假如我都還沒買顯卡試試6張 RTX 5060 Ti 16GB 組成 96GB VRAM 組 (用Workstation 主機板 6 x PCIe 4.0 x 16 lanes , 通訊速度 32 GB/s) 做Tensor Parallelism 張量並行不知道TG 表現如何？

kos or

MTP 版本需要設一個參數 Draft tokens (num_speculative_tokens or spec-draft-n-max): AI 幫我測試過最後1 或 2 是最快的參數, 你也是設定1 或 2 嗎？2 速度只比1 快了3 tokens /s 但是它有一個"準確度" 降了很多(浪費算力) 我跟AI都認同Qwen3.6-27B-MTP-GGUF 最後選擇1 是最佳MTP參數

kos or

@comeN 不知道還有這個版本我請AI幫我測試一下 Qwen3.6-27B-NVFP4-MTP (目前狀態：一早起來Deepseek V4 Flash 給我下載一個 90GB的TesnorRT-LLM, 現在又說這太大了要刪除幫我安裝一個20GB版本的TensorRT來跑測試哈哈暈了)

comeN

NVFP4号称不是无损，但损失小到感知不到，几乎等同于FP16，这可比Q4强不少。

AresROC

@kos-or 上面试的都是MTP=3。目前在研究FP4 & 升级CUDA 13.2，13.3。

kos or

我用的是llama.cpp + Ubuntu + 2 x RTX5070 Ti in PP 來跑同樣一個模型, 最佳MTP draft-n 設定居然會不同有趣了

抡锤者

买了2张5060Ti，谁能跑最便宜的Qwen 27B？