买了2张5060Ti，谁能跑最便宜的Qwen 27B？

AresROC

@terry 好的，我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先不然会升到105度C

我也是50+看到你今天的视频有提到

目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

terry

@AresROC 有空多弄点分享帖子，我一看有图有真相，我就不用什么都自己验证了，相互学习。

Tide

Vivid-Vector 下载个来试试

Tide

@Vivid-Vector 牛逼，我也想限制一下3080的功率，显卡背板太烫手。这贴我留下了。感谢

AresROC

RTX3090 更新记忆前后的散热。温度一定要看着点。

林小麟

小白如果要即插即用，兩張5060TI 16G 插X99，用windows LMstudio，直接載QWEN3.6 27B Q4KM，KV Q8量化，可以拉到120k context，速度大概18token/s。以上是個人親測，屬於可用的程度。

yesen19771004

@Tide 上下文64K有点不够，128K就很棒。不过估计再几个月，用V4架构的新的小模型出来，上下文就足够大了。

terry

@AresROC 老弟这工件台专业啊

stakira

@AresROC 催更了兄弟

AresROC

@stakira 5060Ti #2 仍未收到. 上面有同仁發的速度可以參考。vLLM 环境我会尽快搞。

RTX 3090 双卡LlamaCpp相关内容，在另一篇帖子中可查看。

jianyuan zhang

@terry 我有张改的4090散热器的TESLA V100 32G，想问下能不能跑本地QWEN3.6 27B？

terry

@jianyuan-zhang 简单说就是不能，很慢，体验很差，不值得折腾。

jianyuan zhang

@terry OK ,谢谢，马上处理掉

kos or

@Vivid-Vector 你這調整的真是漂亮謝謝分享

kos or

@林小麟说:

兩張5060TI 16G 插X99，用windows LMstudio

你這個組合真的是小白實用套件組顯卡又有五年保固 : 兩張5060TI 16G + X99 + Windows LMstudio

AresROC

卡终于到货。等到天荒地老..。
马上把双卡插进去，测试.

历尽星霜岁月长，天荒地老守3090。
苍天有眼怜痴客， 5060Ti双剑合璧试锋芒！

觉得很可以用。用电少。不发热 ~ MTP TG 50 t/s

通常可以跑到30 tk/s. 用 Q6_K Ctx 96k 比 Q4_K_M Ctx128k 还快.

LM Studio Split:
3090:

5060Ti:

Q6_K 96k 显存几乎用满了

terry

@AresROC 老铁单独发个帖子吧，流程讲清楚，写成Markdown格式，截图和数据放好，我给你来个置顶。

AresROC

@terry 目前vllm Qwen3.6-27B 还是搞不定，假如成功的话再发

16+16=32GB 跑不了没有天理，
最近LmStudio出了 TP, 假如可以跑我也想试试

terry

@AresROC 加油，等你交作业。

CHAO WANG

我也想组双5060TI 16G，不知道什么效果

抡锤者