Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
@rock-shi 很重要的信息
@terry 刚知道vllm还可以开mtp,我再多试试。回头再来反馈
我也是双卡3080 20G跑qwen3.6 27b在llama能跑32T,MTP=3能写代码能达到47T
@comeN
@rock-shi 我后来把MTP改成2跟你这个速度差不多,才发现MTP不是越高越好
@comeN 说: @rock-shi 我后来把MTP改成2跟你这个速度差不多,才发现MTP不是越高越好
@comeN 说:
需要测,1,2,3,5,7 看成功率多少,看那个最快 然后才决定
@applejuice 对,hermes子代理最高能飙到70t/s,已经足够了其实
3080有nvlink吗,上个桥接器应该很爽
你主板有我主板烂?Z390 ,我双卡3090 vLLM跑62token/s,单卡36token/s
看了锤哥视频,下单了华南x99洋垃圾套餐,现在一张3080 20g 一张3080 10g矿渣,参考论坛大佬双3080 20g帖子,现在我30g显存千问27b也能有45t/s,开心。
速度差距有时候不是硬件差距是模型不同,我原版的27B-Q4KM能跑62,同样的27B-Q4KM另一个就只能跑57,配置和MTP都一样.
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗