Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
请教各位大佬,r9700单卡跑qwen 3.6 27b q4m在网页端聊天窗口出token速度还很正常,64kcontext大概 40-45tps,一旦在hermes上使用这个本地模型,就非常慢,请问如何解决。 谢谢了
有几个因素:1、因为hermes有很多的系统提示词以及提示词加工,相当于是要一口气输入大概10k到20k token的内容。
2、hermes是附带工具调用的,所以你看到他回复,是hermes已经和你的llm私下交流过n次之后的结果。
因此,对于agent工具而言,llm的性能不光要看decode速度,从某种意义上讲,prefill速度更为重要。
多谢解答 学习到了
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗