LLAMA.CPP,vulcan+mtp,qwen 27b q4模型,kv q4 160k上下文,吐字速度大约51t/s。但是切换到VLLM基本不可用,每夜版、AMD官方仓库、kyuz0的github各种版本都尝试了,吐字速度基本稳定在10t/s。用hermes连接不光慢,还经常报错。我是限制GPU跑在230瓦功耗下,58%的最大转速。不过即使功耗墙拉满,实测提升几乎没有。估计是内存带宽存在瓶颈。另外ECC已关,32GVRAM全部释放出来了。
LLAMA.CPP,vulcan+mtp,qwen 27b q4模型,kv q4 160k上下文,吐字速度大约51t/s。但是切换到VLLM基本不可用,每夜版、AMD官方仓库、kyuz0的github各种版本都尝试了,吐字速度基本稳定在10t/s。用hermes连接不光慢,还经常报错。我是限制GPU跑在230瓦功耗下,58%的最大转速。不过即使功耗墙拉满,实测提升几乎没有。估计是内存带宽存在瓶颈。另外ECC已关,32GVRAM全部释放出来了。