双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
-
可以了
用上nvlink
但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
我就不测试 文字模型 了 应该100t/s 没问题
比较奇怪的是 我没想到prefill 快了GPU 限制 250w

模型
Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4Multimodal
vision (image input)MTP heads Present but disabled (0% accept on GPTQ) Native context 262,144 tokens Engine vLLM v0.21.0
参数
--model /models/heretic-gptq-int4 --served-model-name qwen3.6-27b-heretic --quantization gptq_marlin --dtype float16 --tensor-parallel-size 2 # both 3090s, real NVLink usage --max-model-len 262144 # 262K context --gpu-memory-utilization 0.92 --max-num-seqs 2 # 2 concurrent streams --max-num-batched-tokens 8192 --kv-cache-dtype fp8_e5m2 # 1 byte/token KV --trust-remote-code --reasoning-parser qwen3 # routes <think> → reasoning_content --enable-auto-tool-choice --tool-call-parser qwen3_coder # native Qwen3 tool format --enable-prefix-caching # repeated prompts share KV --enable-chunked-prefill # long prefill doesn't block decode --disable-custom-all-reduce # MANDATORY for cross-NUMA setup
测试
Metric Value Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s) VRAM total ~43 GB / 48 GB -
可以了
用上nvlink
但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
我就不测试 文字模型 了 应该100t/s 没问题
比较奇怪的是 我没想到prefill 快了GPU 限制 250w

模型
Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4Multimodal
vision (image input)MTP heads Present but disabled (0% accept on GPTQ) Native context 262,144 tokens Engine vLLM v0.21.0
参数
--model /models/heretic-gptq-int4 --served-model-name qwen3.6-27b-heretic --quantization gptq_marlin --dtype float16 --tensor-parallel-size 2 # both 3090s, real NVLink usage --max-model-len 262144 # 262K context --gpu-memory-utilization 0.92 --max-num-seqs 2 # 2 concurrent streams --max-num-batched-tokens 8192 --kv-cache-dtype fp8_e5m2 # 1 byte/token KV --trust-remote-code --reasoning-parser qwen3 # routes <think> → reasoning_content --enable-auto-tool-choice --tool-call-parser qwen3_coder # native Qwen3 tool format --enable-prefix-caching # repeated prompts share KV --enable-chunked-prefill # long prefill doesn't block decode --disable-custom-all-reduce # MANDATORY for cross-NUMA setup
测试
Metric Value Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s) VRAM total ~43 GB / 48 GB -
@applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s
@applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s
够用了
先玩玩comfyui
-
我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印
现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
kv Q8_0 216k context(还没试)
prefill 800-900t/s
全模态吞吐 40t/s
也算可以用接下来玩下comfyUi
nvlink 就有点浪费 多花了3000好像
-
@applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。 -
@rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了 -
可以了
用上nvlink
但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
我就不测试 文字模型 了 应该100t/s 没问题
比较奇怪的是 我没想到prefill 快了GPU 限制 250w

模型
Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4Multimodal
vision (image input)MTP heads Present but disabled (0% accept on GPTQ) Native context 262,144 tokens Engine vLLM v0.21.0
参数
--model /models/heretic-gptq-int4 --served-model-name qwen3.6-27b-heretic --quantization gptq_marlin --dtype float16 --tensor-parallel-size 2 # both 3090s, real NVLink usage --max-model-len 262144 # 262K context --gpu-memory-utilization 0.92 --max-num-seqs 2 # 2 concurrent streams --max-num-batched-tokens 8192 --kv-cache-dtype fp8_e5m2 # 1 byte/token KV --trust-remote-code --reasoning-parser qwen3 # routes <think> → reasoning_content --enable-auto-tool-choice --tool-call-parser qwen3_coder # native Qwen3 tool format --enable-prefix-caching # repeated prompts share KV --enable-chunked-prefill # long prefill doesn't block decode --disable-custom-all-reduce # MANDATORY for cross-NUMA setup
测试
Metric Value Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s) VRAM total ~43 GB / 48 GB @applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗
-
@applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗
@laihzang619 需要下载
-
@applejuice 投影层的名字 或者下载地址 能麻烦给一个吗
-
@applejuice 投影层的名字 或者下载地址 能麻烦给一个吗
@laihzang619 我刚查了一下
原来不需要
应该是我之前的那个需要很多都是ai 自动设置所以我也忘了

-
@Leon-Y 3090的nvlink在哪里买?多少钱呀?
-
@Leon-Y 3090的nvlink在哪里买?多少钱呀?
-
@Leon-Y prefill 呢?
-
@Leon-Y 3090的nvlink在哪里买?多少钱呀?
taobao, RMB2500
-
声明:这篇东西是叫AI 总结的
交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响
GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
KV cache:q8_0,上下文 153600
开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
782 | 708.8 | 59.2 | 34.7G | 440W
6155 | 1285.9 | 58.5 | 34.8G | 436W
24587 | 1249.5 | 54.6 | 34.8G | 441W
98315 | 835.4 | 47.4 | 34.8G | 441W
135017 | 694.2 | 43.2 | 34.8G | 444W解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
功耗双卡合计稳定 ~440W一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
现在还叫claude 解决vllm 然后测试@applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL,不过是单卡4090 24GB,所以上下文只能装120000。MTP开了以后大概能85~90tps,不开大概45tps,vram用了23GB