买了2张5060Ti，谁能跑最便宜的Qwen 27B？

AresROC

如题所示。我之前买了台 Mac Mini M4（24GB内存），结果发现哪怕配合 oMLX，也跑不动任何合适的模型。

现在我入手了 RTX 5060Ti（16GB显存，448 GB/s显存带宽），单块售价不到500美元；相比那些经过魔改的 RTX 3080 等显卡，它在这卡在耐用性方面应该更有保障。显卡还没到货，所以目前暂无性能实测数据。

R7900XTX 还没见过低于 1000 美元的价格。

大家觉得怎么样？

seewoscott

显存不够用，也不支持NVLink扩展

terry

2张可以用VLLM双卡TP，可以折腾下，其实这卡远不如3080.只能跑跑模型，comfyUI没啥意义。但是跑模型带宽也紧张，不过能跑。

Tide

我的3080跑3.6-27B-Q4KM 上下文65536刚刚够用，每秒差不多32token。对我来说也满足了，毕竟3080玩本地部署才刚刚够入门。刚加载的时候占用18181M显存，随着对话没啥变化。我一般开着watch -n 2 nvidia-smi实时监控显卡，我现在就怕它高温。显存温度最高来到92度，让我揪心。

Eric HO

我兩張3060 12G跑3.6-27B-Q4KM~ 用RotorQuant版llama.cpp
一張大概才6500台幣

墙内人

@Eric-HO 那你也懂技术，挺不错的，一般人还真跑不起来。

terry

@Tide 3080是神卡。

seewoscott

@Eric-HO 这是通过NV link显存合并的吗？

Vivid Vector

@Tide 限制显卡功率，同时给显存超频，测试一下稳定性。
我用着2080Ti 22GB改水冷的，用Nvidia Inspector工具，把功率限制在200W~230W，核心超频+40Mhz（也可以不超核心），显存超频+1200Mhz，跑下来温度最高只有不到50°C，热点不超过65°C，室温27°C左右。

显存超频后带宽721.6GB/s，相比默认的616GB/s，提升超过17%，完美抵消限制功率导致的核心频率下降带来的性能损失，直接节约100W，33%的功率

Qwen 27B Q4_K_M，上下文开32K跑下来，decode 25 tok/s

用Llama.cpp benchmark跑分如图：
全默认，显卡功率300W：

核心超频+40Mhz，显存超频+1200Mhz：

核心超频+40Mhz，显存超频+1200Mhz，显卡功率锁67%限制在200W：

大语言模型主的矩阵运算要跑在GPU的Tensor Cores上，对GPU其他部分如大量的SM单元里的CUDA核心占用不高，GPU此时对功率的实际消耗并不需要太高。

并且大语言模型prefill阶段对核心频率有一定依赖，但降频对prefill性能影响不太大。
decode吐字阶段，对显存带宽的依赖程度大于核心算力，经常是显存带宽不足，喂不饱核心，核心有很多时间都在空转等数据。

综上，你的3080可以尝试限制功率，并小超显存，给显卡背板加装散热铝片+风扇。
然后实测看看数据。

暧昧光影

@Vivid-Vector 3090ti有参数么？

Vivid Vector

@暧昧光影
手上暂时没有3090Ti。
不过按我的经验，温度能控制得住的情况下，锁功率，小超核心，大超显存，对于跑LLM来说都适用。
B站有人实测PRO 6000 Max-Q 版，功率只有300W，相比满血600W的工作站版只损失10%的性能，而且他还没给显存超频。

我看到的PRO 6000，跑LLM经常都是吃不满功耗，TDP 600W的工作站版，只吃到450W左右的样子。
跑满600W功耗的情况，通常是GPU SM里的CUDA核心满载，Tensor Cores也接近满载，同时显存空间和带宽也占用很高的情况才会出现。
LLM的矩阵运算主要靠Tensor Cores执行，且吃满显存空间和带宽，但SM CUDA核心通常空载。

Vivid Vector

@Tide
nvtop也是个不错的N卡监控工具，支持多卡

19-徐福政

@Eric-HO
是用 https://github.com/TheTom/llama-cpp-turboquant 嗎
能跑多少 t/s
能給我llama.cpp的參數嗎我想參考

你覺得我現在只有一張3070ti 8g 如果再加一張3060 12g能順跑3.6-27B-Q4KM嗎

我現在用
cpu 5900x
ram 64g
gpu 3070ti 8g

-ngl 9 -c 87475 -np 1 -t 12 -b 1024
-ctk turbo4 -ctv turbo4 -fa on
--jinja --cache-reuse 1024
--slot-save-path cache --spec-type ngram-mod
--spec-ngram-size-n 6 `
--draft-min 16 --draft-max 96

qwen3.6-27b-q4_k_m.gguf 2.84 t/s 左右
Qwen3.6-35B-A3B-IQ4_XS.gguf 35 t/s 左右

stakira

两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的，期待实测数字

terry

@Vivid-Vector 牛逼啊兄弟，居然这么会玩，发个帖子说下你的2080Ti，我说2080Ti是垃圾之后，很多人不爽喷我，我想是不是我太武断了，你有信息分享下。跑大模型，ComfyUI实际体验，最好带图，让我坐一起视频，嘿嘿

terry

@19-徐福政你两张3070ti也只有16g，它还是会offload到CPU还是慢，27b稠密是推理时必须27b全量参与，Moe快是因为专家load到显存中去。你不要升级，就用35b a3b挺好的，差距当然有，但是没到不能玩，配置一个在线Deepseek，搞不定的事让Deepseek 跑。

terry

@seewoscott 不需要，走PICE就可以

AresROC

@stakira 今天才收到其中一張RTX 5060Ti，另外一張要等個星期。

明天計劃收購兩個R T X 3090 希望成功到手試試。

實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

terry

@AresROC 到时候记得发一个详细的测试帖子，如果有双3090测试的更好，我白嫖做视频。

steafler

直接卖了，换4080S

抡锤者

买了2张5060Ti，谁能跑最便宜的Qwen 27B？