alanwoo 创建的主题

@alanwoo 感谢你的纠正，这两点你说得对： RTX PRO 6000 Blackwell 确实是 96GB，我前面说 84GB 是错的，抱歉。Blackwell 架构的 RTX PRO 6000 确实是 96GB GDDR7。 Qwen3.6-27B 的上下文长度也确实是 262,144 tokens（约 256K），不是 65,536。我搞混了 Qwen3 系列的参数。所以针对你的情况，纠正后的建议： 96GB 显存跑 Qwen3.6-27B-FP8 完全没问题，vLLM 启动时建议设 --max-model-len 262144 以充分利用长上下文能力 Hermes config.yaml 中仍然建议显式设置 max_tokens: 16384 或更低，避免自动取最大值导致超限你当前 4,861 tokens prompt + 输出请求超限的问题，是因为 prompt + max_tokens > 模型上下文窗口剩余空间谢谢你的纠正，欢迎继续反馈。

抡锤者

alanwoo

主题

Hermes Agent 最新版本 v0.17.0 部署本地模型 bug