RTX3080 20g,qwen3.6 27B 60-40T/S 本地爽玩配置

terry

@Tide 抄作业也要交作业，抄作业心得，

rock shi

@terry qwen 35b在hermes里干活不行，跟gemma差不多水平，不是出错就是逻辑循环根本没法干活。必须是27b或者DeepSeek才适配hermes

rock shi

@comeN 我也是双卡3080 20，这得看开了多少上下文把，还有reasoning等级。我hermes开128k，reasoning high差不多就你这个速度上下浮动

rock shi

而且还得看mtp有没有命中，命中了就很快能到50多，没命中最慢36

y2k

感谢大佬分享，等3080到货，就按你这个部署win版的模型

vosrock

因为显存确实很紧张，如果不是差钱，还是得用3090，就不用那么窘迫，
今天已经开始了一个客户的在线数据分析预测系统，因为要长时间跑数据训练，所以就发现了多线程会导致降速，实际上就是炸显存，所以NP就只能设置1了现在跑了一个下午了速度没降，也很稳定

这里也要设置一下，大幅度避免上下文压缩

vosrock

以上设置，长时间跑，就是这个速度了，总的来说，还是不建议这张卡，至少还是得3090，那是优雅得多了，多模态也可以安排上

rock shi

@vosrock 3080 20g*2，感觉还行吧，27b模型hermes跑了个任务52t/s，

vosrock

我没有两张卡，不知道两张卡会怎样，但看速度的话，似乎有很大优化空间啊

rock shi

@vosrock 两张3080 20g等于一张3090 24g的价格把，能顶3090的80%至少，40g大显存还能再做一些别的事，还是挺夯的

vosrock

以我这次的折腾，单卡跑27B MTP长期稳定极限是120K上下文，也很容易触发上下文压缩的，不知道有没有大神有解决方法，

我刚才豆包了一下，原来可以将模型权重分别载入两张卡，这样还是有意义啊，但是我主板第二PCIE是3.0的，这就很尴尬了，NVLINK能买到估计也不便宜

applejuice

@vosrock 3080好像没有nvlink
nvlink 现在都在1100+-

我就是为了nvlink 多付3000-4000
因为 huananzhi 单路x99 pcie3.0 距离都不适用nvlink...
有点超预算所以有点后悔

rock shi

@applejuice 他说的3090,3090可以nvlink，个人感觉透出产出比不高，没实践过

vosrock

总的来说，就是不值得折腾，收益太少，如果可以NVLINK还能搞一下，不过功耗也是很恐怖的，我的电源估计也顶不住

applejuice

@rock-shi 我也只折腾过AI
如果下决定前知道要多付出4000元我就选r9700了

但是据ai 解答长上下文如果超过24gb nvlink 也有帮助
收益太少是真的

rock shi

@applejuice 也不能这么说，肯定是有舍有得。像我这两个3080，当时买的时候感觉挺落后的，实际上玩起来的时候说不定有很多其他卡不适配的应用场景，整体速度感觉也还不错。

vosrock

用27B跑项目的前期，工作习惯，框架大体搭好，然后用35B，开满上下文，不用MTP，速度就是这个样子，截图的这个状态实际上下文已经跑到了150K了，这只是单卡，还是不要搞双卡了，哥们

applejuice

钱已经花了等我机器到也测一测

rock shi

@applejuice 双卡3090+nvlink绝对牛逼。期待一波反馈

vosrock

@applejuice 原来您是双3090啊，那不一样，完全是两个世界了，我估计跑COMFYuI都能有不错的体验啊，单3080其实LTX2.3也能跑一下，体验都还可以的，这张卡其实我是去年拿来跑视频的敢信

抡锤者