抡锤者

cuke1982

LLAMA.CPP，vulcan+mtp，qwen 27b q4模型，kv q4 160k上下文，吐字速度大约51t/s。但是切换到VLLM基本不可用，每夜版、AMD官方仓库、kyuz0的github各种版本都尝试了，吐字速度基本稳定在10t/s。用hermes连接不光慢，还经常报错。我是限制GPU跑在230瓦功耗下，58%的最大转速。不过即使功耗墙拉满，实测提升几乎没有。估计是内存带宽存在瓶颈。另外ECC已关，32GVRAM全部释放出来了。

抡锤者

cuke1982

帖子