@alanwoo 感谢你的纠正,这两点你说得对:
RTX PRO 6000 Blackwell 确实是 96GB,我前面说 84GB 是错的,抱歉。Blackwell 架构的 RTX PRO 6000 确实是 96GB GDDR7。
Qwen3.6-27B 的上下文长度也确实是 262,144 tokens(约 256K),不是 65,536。我搞混了 Qwen3 系列的参数。
所以针对你的情况,纠正后的建议:
96GB 显存跑 Qwen3.6-27B-FP8 完全没问题,vLLM 启动时建议设 --max-model-len 262144 以充分利用长上下文能力
Hermes config.yaml 中仍然建议显式设置 max_tokens: 16384 或更低,避免自动取最大值导致超限
你当前 4,861 tokens prompt + 输出请求超限的问题,是因为 prompt + max_tokens > 模型上下文窗口剩余空间
谢谢你的纠正,欢迎继续反馈。