Reply to 【求助】vLLM 单卡 3090 部署 Qwen3.6-27B-INT4，开启 MTP 投机采样触发无限复读（死循环） on Mon, 11 May 2026 02:40:21 GMT

ai — Mon, 11 May 2026 02:40:21 GMT

@terry Thx,我先试试，

Reply to 【求助】vLLM 单卡 3090 部署 Qwen3.6-27B-INT4，开启 MTP 投机采样触发无限复读（死循环） on Mon, 11 May 2026 02:35:58 GMT

terry — Mon, 11 May 2026 02:35:58 GMT

尝试将 num_speculative_tokens 改为 1 或 2。
最大的可能是turboquant 精度崩了，你换成fp8 kv看看，24G显存够你用的。投机解码和turboquant都还不成熟，你先用一个，别贪心。