Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
这有什么好研究的?这两张卡并行串行都随便跑啊,硬件完全合格了。你可以尝试下用VLLM或者SG-Lang TP,效率会高很多。跑起来发数据就好了,没必要跑串行分层,那浪费算力了。
@terry 锤子哥!吼吼,之前vllm没搞定,我得再去折腾一波
@rock-shi 对的,论坛需要你的数据,串行真的没啥意思,TP跑起来分享才有价值,这卡也算是神卡了。
tp 必须要pcie4 x8 , pcie3 tp prefill 速度会慢过单卡pp
@coin1860 那就不值得了,为这点事还换主板。洋垃圾都有两个以上PICE 3* 16,不会拖后腿吧。我觉得可以测试下。
@terry 测试完了。vllm不行,18tokens/s左右,应该还是我的主板不行。ollama稳定29tokens/s
@rock-shi 很重要的信息
我的就是3080 20g*2 vllm受限于主板,不成功。llamma.cpp还可以大概的速度是50多60左右的样子。模型qwen3.6-27b
@whjwyc 我去!好消息,回头我也得试试。
@terry 刚知道vllm还可以开mtp,我再多试试。回头再来反馈
我也是双卡3080 20G跑qwen3.6 27b在llama能跑32T,MTP=3能写代码能达到47T
@comeN
@rock-shi 我后来把MTP改成2跟你这个速度差不多,才发现MTP不是越高越好
@comeN 说: @rock-shi 我后来把MTP改成2跟你这个速度差不多,才发现MTP不是越高越好
@comeN 说:
需要测,1,2,3,5,7 看成功率多少,看那个最快 然后才决定
@applejuice 对,hermes子代理最高能飙到70t/s,已经足够了其实
3080有nvlink吗,上个桥接器应该很爽
你主板有我主板烂?Z390 ,我双卡3090 vLLM跑62token/s,单卡36token/s
看了锤哥视频,下单了华南x99洋垃圾套餐,现在一张3080 20g 一张3080 10g矿渣,参考论坛大佬双3080 20g帖子,现在我30g显存千问27b也能有45t/s,开心。
速度差距有时候不是硬件差距是模型不同,我原版的27B-Q4KM能跑62,同样的27B-Q4KM另一个就只能跑57,配置和MTP都一样.
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗