Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
2月份搞的这两个卡,目前能跑hermes+qwen3.6 27b,有没有志同道合的兄弟一起研究这卡怎么玩
这有什么好研究的?这两张卡并行串行都随便跑啊,硬件完全合格了。你可以尝试下用VLLM或者SG-Lang TP,效率会高很多。跑起来发数据就好了,没必要跑串行分层,那浪费算力了。
@terry 锤子哥!吼吼,之前vllm没搞定,我得再去折腾一波
@rock-shi 对的,论坛需要你的数据,串行真的没啥意思,TP跑起来分享才有价值,这卡也算是神卡了。
tp 必须要pcie4 x8 , pcie3 tp prefill 速度会慢过单卡pp
@coin1860 那就不值得了,为这点事还换主板。洋垃圾都有两个以上PICE 3* 16,不会拖后腿吧。我觉得可以测试下。
@terry 测试完了。vllm不行,18tokens/s左右,应该还是我的主板不行。ollama稳定29tokens/s
@rock-shi 很重要的信息
我的就是3080 20g*2 vllm受限于主板,不成功。llamma.cpp还可以大概的速度是50多60左右的样子。模型qwen3.6-27b
@whjwyc 我去!好消息,回头我也得试试。
@terry 刚知道vllm还可以开mtp,我再多试试。回头再来反馈
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗