Reply to r9700 hermes出token慢 on Mon, 29 Jun 2026 01:44:53 GMT

Ali Jiang — Mon, 29 Jun 2026 01:44:53 GMT

多谢解答学习到了

Reply to r9700 hermes出token慢 on Sun, 28 Jun 2026 09:20:19 GMT

kop wang — Sun, 28 Jun 2026 09:20:19 GMT

有几个因素：1、因为hermes有很多的系统提示词以及提示词加工，相当于是要一口气输入大概10k到20k token的内容。

2、hermes是附带工具调用的，所以你看到他回复，是hermes已经和你的llm私下交流过n次之后的结果。

因此，对于agent工具而言，llm的性能不光要看decode速度，从某种意义上讲，prefill速度更为重要。