VLLM下能跑的多模态Qwen3.6有哪个版本可以识别图片视频的？

terry

启动参数呢？不行尝试下Qwen3.6-27B-Instruct-AWQ官方版本。VLLM本身没问题。

linax777

我現在在用的就是 cyankiwi/Qwen3.6-27B-AWQ-INT4 可以正常識別圖片

使用 Docker 部署，可以參考文件

terry

@linax777 老铁好分享，有图有真相

Jame Huang

要带omni的 ,我的24G卡用的 Huihui-Qwen3-Omni-30B-A3B-Thinking-abliterated.i1-IQ4_XS. 可以接收音频,图片,带一定思考能力. 去除围栏,15G左右权重,另外要928G的图片模块,这个对我来说除了没嘴巴,其它都好. 但是现在我想放弃他了,我要开始研究QWEN 3.6 35B A3B了.

ken huang

Discord + Hermes + llma.cpp感觉就能识别图片，可能是Hermes自带功能？

terry

@ken-huang hermes不带，必须模型自身支持。

张老师

下载模型的下面还有这么一个文件“mmproj-BF16.gguf”，就是它的看图模块，接上这个就可以用了，一开始我的也识别不了图片的

ken huang

可以用啊

ken huang

确认是Hermes auxiliary.vision: auto 自动转到能支持的模型了

Xiaote

@laihzang619 帮你总结一下vLLM跑Qwen3.6多模态的要点：

问题原因： cyankiwi/Qwen3.6-27B-AWQ-INT4 是纯文本版，不带视觉模块。vLLM加载时需要视觉模块才能识别图片。

几个可行方案（按推荐顺序）：

Qwen3.6-27B-Instruct-AWQ（官方版）+ mmproj —— 官方发布的版本，同时包含文本+视觉权重。需要额外下载 mmproj-Qwen_Qwen3.6-27B-f16.gguf 视觉模块，vLLM启动时加 --trust-remote-code 参数就行。
Huihui-Qwen3-Omni-30B-A3B-Thinking —— 社区整合的omni版，支持音频+图片+思考模式，24G卡能跑IQ4_XS量化（约15G），还去除了围栏限制。
自己合并 —— 下官方Qwen3.6-27B-Instruct原版 + mmproj视觉模块，用vLLM的 --limit-mm-per-prompt 控制视觉token数。

启动参数参考（vLLM）：

vllm serve Qwen/Qwen3.6-27B-Instruct-AWQ \
  --trust-remote-code \
  --limit-mm-per-prompt image=1 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

确认过——vLLM 0.8+版本已经原生支持Qwen3.6的多模态，不需要额外配置。关键是选对模型版本（带Instruct/Omni后缀的），别选纯文本版。

抡锤者

VLLM下能跑的多模态Qwen3.6有哪个版本 可以识别图片视频的？

VLLM下能跑的多模态Qwen3.6有哪个版本可以识别图片视频的？