双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测

applejuice

可以了
用上nvlink
但是不能用MTP 因为模型不支持上述GITHUB 文章用的只是文字模型我想要多模态模型
我就不测试文字模型了应该100t/s 没问题
比较奇怪的是我没想到prefill 快了

GPU 限制 250w

模型


Repo	`llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4`
Multimodal	vision (image input)
MTP heads	Present but disabled (0% accept on GPTQ)
Native context	262,144 tokens
Engine	vLLM v0.21.0

参数

--model /models/heretic-gptq-int4
--served-model-name qwen3.6-27b-heretic
--quantization gptq_marlin
--dtype float16
--tensor-parallel-size 2              # both 3090s, real NVLink usage
--max-model-len 262144                # 262K context
--gpu-memory-utilization 0.92
--max-num-seqs 2                      # 2 concurrent streams
--max-num-batched-tokens 8192
--kv-cache-dtype fp8_e5m2             # 1 byte/token KV
--trust-remote-code
--reasoning-parser qwen3              # routes <think> → reasoning_content
--enable-auto-tool-choice
--tool-call-parser qwen3_coder        # native Qwen3 tool format
--enable-prefix-caching               # repeated prompts share KV
--enable-chunked-prefill              # long prefill doesn't block decode
--disable-custom-all-reduce           # MANDATORY for cross-NUMA setup

测试

Metric	Value
Decode (single-stream, steady)	67 t/s (同时2个对话同时 62t/s
Prefill (4K prompt, warmed)**	1,289 t/s (同时2个对话 1,000 t/s）
VRAM total	~43 GB / 48 GB

rock shi

@applejuice 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s

applejuice

@rock-shi 说:

@applejuice 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s

够用了
先玩玩comfyui

vosrock

爽啊，速度另说，精度提高还是会舒服很多的

vosrock

@applejuice 反正我是一边折腾一边工作，有痛苦的时候，就是这次对话的改动很好，但是显存炸了，这个时候只有3T/S，你得等它慢慢总结，慢慢GIT
27b也有过不去的坎，这个时候只能你自己告诉它怎么弄，我试过，它搞不定的，让他自己跑一个下午都跑不通，这里几天折腾，我的新软件也已经跑出来了。

rock shi

@vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈，或者一边跑模型一边剪辑看视频

vosrock

@rock-shi 你这么说有道理啊，一张卡跑HERMES，让HERMES调用另外一张卡跑图片或者视频
我昨天还想来着，我如果想HERMES生图咋办，再跑COMFYUI没资源了啊，有两张卡就啥都解决了

rock shi

@vosrock 有条件还可以研究一下API的跑图，也都不贵，解放本地算力哈哈。

laihzang619

@applejuice 大佬这个模型是默认就有视觉吗还需要向别的模型一样需要下载一个投影层吗

applejuice

@laihzang619 需要下载

laihzang619

@applejuice 投影层的名字或者下载地址能麻烦给一个吗

applejuice

@laihzang619 我刚查了一下
原来不需要
应该是我之前的那个需要

很多都是ai 自动设置所以我也忘了

Leon Y

Qwen3.6-27B我也是上不了多模态，只能退回到Qwen3-VL

Leon Y

我的也是3090x2+NVLink，vLLM跑Qwen3.6-27B 性能
Narrative
• 吞吐: 92.4 tok/s

Code
• 吞吐: 99.0 tok/s

applejuice

@Leon-Y prefill 呢？

Larry Wang

@Leon-Y 3090的nvlink在哪里买？多少钱呀？

Leon Y

@Larry-Wang 说:

@Leon-Y 3090的nvlink在哪里买？多少钱呀？

taobao, RMB2500

Leon Y

@applejuice 说:

@Leon-Y prefill 呢？

忘了看了

applejuice

@Leon-Y 说:

@Larry-Wang 说:

@Leon-Y 3090的nvlink在哪里买？多少钱呀？

taobao, RMB2500

3槽的吧？那么贵

topgun2000

@applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL，不过是单卡4090 24GB，所以上下文只能装120000。MTP开了以后大概能85~90tps，不开大概45tps，vram用了23GB

抡锤者

双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测

模型

参数

测试

模型

参数

测试

模型

参数

测试