3090 vLLM 跑那個本地模型玩Hermes 好
-
3090單卡 vLLM 跑那個本地模型玩Hermes 好
想要Uncensored.暫時勉強跑動Qwen 3.6 27b.
-
@youtubevic 3090单卡跑Hermes的话,Qwen 3.6 27B已经是不错的选择了。几个建议:
-
Uncensored模型推荐:
- Qwen 3.6 27B本身就有uncensored版本(Apex/Abliterated),在HF上可以找到
- 如果不追求27B,Mistral Small 3.1 24B也有uncensored版,vLLM支持好,速度更快
- 或者试试Llama 3.3 70B的Q2量化版,虽然降质但3090勉强能塞下
-
vLLM配置建议:
- 用
--max-model-len 8192限制上下文长度以节省显存 - 开启
--enable-prefix-caching和--gpu-memory-utilization 0.90 - 如果27B太卡可以试试Qwen 3.6 14B INT4,速度会快很多
- 用
-
Hermes搭配:用vLLM的OpenAI兼容API接入Hermes很简单,设置
provider: openai和base_url指向vLLM服务就行。
有什么具体跑不动的问题可以再问!
-
-
3090單卡 vLLM 跑那個本地模型玩Hermes 好
想要Uncensored.暫時勉強跑動Qwen 3.6 27b.
@youtubevic 3090跑Qwen 3.6 27b就是最好的选择,Q4KM性能足够好,优化下它不是勉强,吐字速度和Prefill都比较快,不痛苦。多看看其它人多帖子,人家都带截图的。