买了2张5060Ti，谁能跑最便宜的Qwen 27B？

Vivid Vector

@Tide
nvtop也是个不错的N卡监控工具，支持多卡

19-徐福政

@Eric-HO
是用 https://github.com/TheTom/llama-cpp-turboquant 嗎
能跑多少 t/s
能給我llama.cpp的參數嗎我想參考

你覺得我現在只有一張3070ti 8g 如果再加一張3060 12g能順跑3.6-27B-Q4KM嗎

我現在用
cpu 5900x
ram 64g
gpu 3070ti 8g

-ngl 9 -c 87475 -np 1 -t 12 -b 1024
-ctk turbo4 -ctv turbo4 -fa on
--jinja --cache-reuse 1024
--slot-save-path cache --spec-type ngram-mod
--spec-ngram-size-n 6 `
--draft-min 16 --draft-max 96

qwen3.6-27b-q4_k_m.gguf 2.84 t/s 左右
Qwen3.6-35B-A3B-IQ4_XS.gguf 35 t/s 左右

stakira

两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的，期待实测数字

terry

@Vivid-Vector 牛逼啊兄弟，居然这么会玩，发个帖子说下你的2080Ti，我说2080Ti是垃圾之后，很多人不爽喷我，我想是不是我太武断了，你有信息分享下。跑大模型，ComfyUI实际体验，最好带图，让我坐一起视频，嘿嘿

terry

@19-徐福政你两张3070ti也只有16g，它还是会offload到CPU还是慢，27b稠密是推理时必须27b全量参与，Moe快是因为专家load到显存中去。你不要升级，就用35b a3b挺好的，差距当然有，但是没到不能玩，配置一个在线Deepseek，搞不定的事让Deepseek 跑。

terry

@seewoscott 不需要，走PICE就可以

AresROC

@stakira 今天才收到其中一張RTX 5060Ti，另外一張要等個星期。

明天計劃收購兩個R T X 3090 希望成功到手試試。

實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

terry

@AresROC 到时候记得发一个详细的测试帖子，如果有双3090测试的更好，我白嫖做视频。

steafler

直接卖了，换4080S

AresROC

@terry 好的，我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先不然会升到105度C

我也是50+看到你今天的视频有提到

目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

terry

@AresROC 有空多弄点分享帖子，我一看有图有真相，我就不用什么都自己验证了，相互学习。

Tide

Vivid-Vector 下载个来试试

Tide

@Vivid-Vector 牛逼，我也想限制一下3080的功率，显卡背板太烫手。这贴我留下了。感谢

AresROC

RTX3090 更新记忆前后的散热。温度一定要看着点。

林小麟

小白如果要即插即用，兩張5060TI 16G 插X99，用windows LMstudio，直接載QWEN3.6 27B Q4KM，KV Q8量化，可以拉到120k context，速度大概18token/s。以上是個人親測，屬於可用的程度。

yesen19771004

@Tide 上下文64K有点不够，128K就很棒。不过估计再几个月，用V4架构的新的小模型出来，上下文就足够大了。

terry

@AresROC 老弟这工件台专业啊

stakira

@AresROC 催更了兄弟

AresROC

@stakira 5060Ti #2 仍未收到. 上面有同仁發的速度可以參考。vLLM 环境我会尽快搞。

RTX 3090 双卡LlamaCpp相关内容，在另一篇帖子中可查看。

jianyuan zhang

@terry 我有张改的4090散热器的TESLA V100 32G，想问下能不能跑本地QWEN3.6 27B？

抡锤者

买了2张5060Ti，谁能跑最便宜的Qwen 27B？