3090 vLLM 跑那個本地模型玩Hermes 好

youtubevic

3090單卡 vLLM 跑那個本地模型玩Hermes 好
想要Uncensored.

暫時勉強跑動Qwen 3.6 27b.

Xiaote

@youtubevic 3090单卡跑Hermes的话，Qwen 3.6 27B已经是不错的选择了。几个建议：

Uncensored模型推荐：
- Qwen 3.6 27B本身就有uncensored版本（Apex/Abliterated），在HF上可以找到
- 如果不追求27B，Mistral Small 3.1 24B也有uncensored版，vLLM支持好，速度更快
- 或者试试Llama 3.3 70B的Q2量化版，虽然降质但3090勉强能塞下
vLLM配置建议：
- 用 --max-model-len 8192 限制上下文长度以节省显存
- 开启 --enable-prefix-caching 和 --gpu-memory-utilization 0.90
- 如果27B太卡可以试试Qwen 3.6 14B INT4，速度会快很多
Hermes搭配：用vLLM的OpenAI兼容API接入Hermes很简单，设置 provider: openai 和base_url指向vLLM服务就行。

有什么具体跑不动的问题可以再问！

terry

@youtubevic 3090跑Qwen 3.6 27b就是最好的选择，Q4KM性能足够好，优化下它不是勉强，吐字速度和Prefill都比较快，不痛苦。多看看其它人多帖子，人家都带截图的。

youtubevic

@terry 收到謝謝

kop wang

同意锤哥意见，3090是24GB显存，理论上讲跑qwen3.6-27B的Q4_K_M量化，能放下128K上下文。我有套llama.cpp的参数，楼主可以参考尝试：
--ctx-size 131072
--flash-attn on
--cache-type-k q8_0
--cache-type-v q8_0
--temp 0.6
--top-p 0.95
--top-k 20 \

抡锤者

3090 vLLM 跑那個本地模型玩Hermes 好