@terry 刚知道vllm还可以开mtp,我再多试试。回头再来反馈
rock shi
@rock shi
-
3080 20G*2的有没有,来交流啊兄弟们 -
3080 20G*2的有没有,来交流啊兄弟们@whjwyc 我去!好消息,回头我也得试试。
-
3080 20G*2的有没有,来交流啊兄弟们@terry 测试完了。vllm不行,18tokens/s左右,应该还是我的主板不行。ollama稳定29tokens/s
-
3080 20G*2的有没有,来交流啊兄弟们@terry 锤子哥!吼吼,之前vllm没搞定,我得再去折腾一波
-
3080 20G*2的有没有,来交流啊兄弟们
-
3080 20G*2的有没有,来交流啊兄弟们2月份搞的这两个卡,目前能跑hermes+qwen3.6 27b,有没有志同道合的兄弟一起研究这卡怎么玩
-
3080改成20g显存好呢还是卖掉换7900XTX好@woho96 跑视频模型,单卡至少24g了
-
3080改成20g显存好呢还是卖掉换7900XTX好我是两张3080 20,一共40g,反正hermes已经在帮我测试很多东西了
-
请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?q4我开reasoning high完全够啊,几乎不会出错。我用下来是觉得比DeepSeek v4 flash和pro都夯
-
问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.@fanwen1974 是的,我测试过好几次了。hermes更新13.0以后我也不死心,就是想用35b,但是他就是moe,moe就是不行,跟27b稠密型根本比不了。其实DeepSeek v4 flash或者pro都不如27b,因为他俩也是moe