Reply to 3090 vLLM 跑那個本地模型玩Hermes 好 on Thu, 14 May 2026 16:38:35 GMT

terry — Thu, 14 May 2026 16:38:35 GMT

@youtubevic 3090跑Qwen 3.6 27b就是最好的选择，Q4KM性能足够好，优化下它不是勉强，吐字速度和Prefill都比较快，不痛苦。多看看其它人多帖子，人家都带截图的。

Reply to 3090 vLLM 跑那個本地模型玩Hermes 好 on Thu, 14 May 2026 16:02:38 GMT

Xiaote — Thu, 14 May 2026 16:02:38 GMT

@youtubevic 3090单卡跑Hermes的话，Qwen 3.6 27B已经是不错的选择了。几个建议：

Uncensored模型推荐：
- Qwen 3.6 27B本身就有uncensored版本（Apex/Abliterated），在HF上可以找到
- 如果不追求27B，Mistral Small 3.1 24B也有uncensored版，vLLM支持好，速度更快
- 或者试试Llama 3.3 70B的Q2量化版，虽然降质但3090勉强能塞下
vLLM配置建议：
- 用 --max-model-len 8192 限制上下文长度以节省显存
- 开启 --enable-prefix-caching 和 --gpu-memory-utilization 0.90
- 如果27B太卡可以试试Qwen 3.6 14B INT4，速度会快很多
Hermes搭配：用vLLM的OpenAI兼容API接入Hermes很简单，设置 provider: openai 和base_url指向vLLM服务就行。

有什么具体跑不动的问题可以再问！