r9700 hermes出token慢

Ali Jiang

请教各位大佬，r9700单卡跑qwen 3.6 27b q4m在网页端聊天窗口出token速度还很正常，64kcontext大概 40-45tps，一旦在hermes上使用这个本地模型，就非常慢，请问如何解决。谢谢了

kop wang

有几个因素：1、因为hermes有很多的系统提示词以及提示词加工，相当于是要一口气输入大概10k到20k token的内容。

2、hermes是附带工具调用的，所以你看到他回复，是hermes已经和你的llm私下交流过n次之后的结果。

因此，对于agent工具而言，llm的性能不光要看decode速度，从某种意义上讲，prefill速度更为重要。

Ali Jiang

多谢解答学习到了

抡锤者