<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测]]></title><description><![CDATA[<p dir="auto">声明:这篇东西是叫AI 总结的</p>
<p dir="auto">交作业。双 3090 跑 Qwen3.6-27B，测了上下文深度对速度的影响</p>
<p dir="auto">GPU：RTX 3090 ×2，已上 NVLink（nvidia-smi topo -m 显示 NV4，4 条 link 各 14GB/s，约 56GB/s）<br />
模型：Qwen3.6-27B-UD-Q4_K_XL（unsloth 动态量化） --- 下载错了 将就用<br />
引擎：llama.cpp 自编译（CUDA），layer-split（默认模式）<br />
KV cache：q8_0，上下文 153600<br />
开了 MTP（--spec-type draft-mtp --spec-draft-n-max 3）、flash-attn</p>
<p dir="auto">测试方法： 每次冷 prefill，关掉 prompt cache，数字比较实在。脚本跑 /completion 读 timings。<br />
prompt_n  | prefill t/s | gen t/s | 总显存 | 功耗<br />
782    |       708.8 |    59.2 | 34.7G | 440W<br />
6155   |      1285.9 |    58.5 | 34.8G | 436W<br />
24587 |      1249.5 |    54.6 | 34.8G | 441W<br />
98315 |       835.4 |    47.4 | 34.8G | 441W<br />
135017 |       694.2 |    43.2 | 34.8G | 444W</p>
<p dir="auto">解码 59 → 43 t/s，从 800 一路到 135K 上下文只掉 27%，曲线相当平，不像单卡过了 64K 就断崖<br />
显存全程稳定 34.7G（KV cache 启动时按满 context 预分配），48G 总显存还剩富裕，上下文还能再往上拉<br />
prefill 在中段（6K~24K）能冲到 1250+ t/s，深上下文回落到 700 左右<br />
双卡 layer-split，两张卡轮流跑，速度约等于单卡——双卡的收益主要是"显存容量"，能塞下深上下文<br />
功耗双卡合计稳定 ~440W</p>
<p dir="auto">一开始先用vllm 跑两张卡 结果只有7t/s， 所以先用上llama 然后在看能不能用上NVLINK<br />
现在还叫claude 解决vllm 然后测试</p>
]]></description><link>https://lcz.me/topic/322/双-3090-nvlink-跑-qwen3.6-27b-128k-上下文实测</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 05:50:47 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/322.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 26 May 2026 11:22:33 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Fri, 29 May 2026 03:28:19 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vosrock" aria-label="Profile: vosrock">@<bdi>vosrock</bdi></a> 有条件还可以研究一下API的跑图，也都不贵，解放本地算力哈哈。</p>
]]></description><link>https://lcz.me/post/4145</link><guid isPermaLink="true">https://lcz.me/post/4145</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Fri, 29 May 2026 03:28:19 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Fri, 29 May 2026 02:58:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/rock-shi" aria-label="Profile: rock-shi">@<bdi>rock-shi</bdi></a> 你这么说有道理啊，一张卡跑HERMES，让HERMES调用另外一张卡跑图片或者视频<br />
我昨天还想来着，我如果想HERMES生图咋办，再跑COMFYUI没资源了啊，有两张卡就啥都解决了</p>
]]></description><link>https://lcz.me/post/4141</link><guid isPermaLink="true">https://lcz.me/post/4141</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Fri, 29 May 2026 02:58:49 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Fri, 29 May 2026 01:08:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vosrock" aria-label="Profile: vosrock">@<bdi>vosrock</bdi></a> 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈，或者一边跑模型一边剪辑看视频</p>
]]></description><link>https://lcz.me/post/4129</link><guid isPermaLink="true">https://lcz.me/post/4129</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Fri, 29 May 2026 01:08:05 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 15:05:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 反正我是一边折腾一边工作，有痛苦的时候，就是这次对话的改动很好，但是显存炸了，这个时候只有3T/S，你得等它慢慢总结，慢慢GIT<br />
27b也有过不去的坎，这个时候只能你自己告诉它怎么弄，我试过，它搞不定的，让他自己跑一个下午都跑不通，这里几天折腾，我的新软件也已经跑出来了。</p>
]]></description><link>https://lcz.me/post/4080</link><guid isPermaLink="true">https://lcz.me/post/4080</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Thu, 28 May 2026 15:05:05 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 15:01:02 GMT]]></title><description><![CDATA[<p dir="auto">爽啊，速度另说，精度提高还是会舒服很多的</p>
]]></description><link>https://lcz.me/post/4078</link><guid isPermaLink="true">https://lcz.me/post/4078</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Thu, 28 May 2026 15:01:02 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 14:36:02 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/rock-shi" aria-label="Profile: rock-shi">@<bdi>rock-shi</bdi></a> <a href="/post/4044">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s</p>
</blockquote>
<p dir="auto">够用了<br />
先玩玩comfyui <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/270c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--v" style="height:23px;width:auto;vertical-align:middle" title=":v:" alt="✌" /></p>
]]></description><link>https://lcz.me/post/4075</link><guid isPermaLink="true">https://lcz.me/post/4075</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Thu, 28 May 2026 14:36:02 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 11:20:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 牛皮！这个速度已经很舒服了。hermes用子代理干活也能提高速度，3080最高能跑到70t/s</p>
]]></description><link>https://lcz.me/post/4044</link><guid isPermaLink="true">https://lcz.me/post/4044</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Thu, 28 May 2026 11:20:10 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 11:28:27 GMT]]></title><description><![CDATA[<p dir="auto">可以了<br />
用上nvlink<br />
但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型<br />
我就不测试 文字模型 了 应该100t/s 没问题<br />
比较奇怪的是 我没想到prefill 快了</p>
<p dir="auto">GPU 限制 250w<br />
<img src="https://upload.lcz.me/uploads/a0240bab-b4d3-41a2-847e-5db734dbdfe6.jpeg" alt="e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg" class=" img-fluid img-markdown" /></p>
<h2>模型</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th></th>
<th></th>
</tr>
</thead>
<tbody>
<tr>
<td>Repo</td>
<td><a href="https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4" rel="nofollow ugc"><code>llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4</code></a></td>
</tr>
<tr>
<td>Multimodal</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> vision (image input)</td>
</tr>
<tr>
<td>MTP heads</td>
<td>Present but <strong>disabled</strong> (0% accept on GPTQ)</td>
</tr>
<tr>
<td>Native context</td>
<td>262,144 tokens</td>
</tr>
<tr>
<td>Engine</td>
<td><strong>vLLM v0.21.0</strong></td>
</tr>
</tbody>
</table>
<hr />
<h2>参数</h2>
<pre><code>--model /models/heretic-gptq-int4
--served-model-name qwen3.6-27b-heretic
--quantization gptq_marlin
--dtype float16
--tensor-parallel-size 2              # both 3090s, real NVLink usage
--max-model-len 262144                # 262K context
--gpu-memory-utilization 0.92
--max-num-seqs 2                      # 2 concurrent streams
--max-num-batched-tokens 8192
--kv-cache-dtype fp8_e5m2             # 1 byte/token KV
--trust-remote-code
--reasoning-parser qwen3              # routes &lt;think&gt; → reasoning_content
--enable-auto-tool-choice
--tool-call-parser qwen3_coder        # native Qwen3 tool format
--enable-prefix-caching               # repeated prompts share KV
--enable-chunked-prefill              # long prefill doesn't block decode
--disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
</code></pre>
<hr />
<h2>测试</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Metric</th>
<th style="text-align:right">Value</th>
</tr>
</thead>
<tbody>
<tr>
<td>Decode (single-stream, steady)</td>
<td style="text-align:right">67 t/s (同时2个对话同时 62t/s</td>
</tr>
<tr>
<td>Prefill (4K prompt, warmed)**</td>
<td style="text-align:right">1,289 t/s (同时2个对话 1,000 t/s）</td>
</tr>
<tr>
<td>VRAM total</td>
<td style="text-align:right">~43 GB / 48 GB</td>
</tr>
</tbody>
</table>
]]></description><link>https://lcz.me/post/4033</link><guid isPermaLink="true">https://lcz.me/post/4033</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Thu, 28 May 2026 11:28:27 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 10:19:39 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/davidwei0826" aria-label="Profile: davidwei0826">@<bdi>davidwei0826</bdi></a> 这篇我机器还没到的时候已经看了 居然忘了我就相信AI 说不行</p>
<p dir="auto">现在就叫claude 去设置</p>
]]></description><link>https://lcz.me/post/4012</link><guid isPermaLink="true">https://lcz.me/post/4012</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Thu, 28 May 2026 10:19:39 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Thu, 28 May 2026 05:36:31 GMT]]></title><description><![CDATA[<p dir="auto">双卡3090 vLLM跑Qwen3.6-27B，强烈建议关注： <a href="https://github.com/noonghunna/club-3090" rel="nofollow ugc">https://github.com/noonghunna/club-3090</a> 。<br />
我自己的环境： 双卡3090 nvlink，模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 <a href="https://github.com/noonghunna/club-3090/blob/master/models/qwen3.6-27b/vllm/compose/dual/autoround-int4/fp8-mtp.yml" rel="nofollow ugc">dual-mtp</a> 的vllm运行参数和测试脚本(<a href="https://github.com/noonghunna/club-3090/blob/master/scripts/soak-test.sh" rel="nofollow ugc">soak-test.sh</a>)， p50_decode_tps：61.34；p95_ttft_ms：4864 。<br />
官方给的测试，应该能到接近70tps，我的还有优化空间，但是能用了就没折腾，参考<a href="https://github.com/noonghunna/club-3090/blob/master/docs/DUAL_CARD.md" rel="nofollow ugc">DUAL_CARD.md</a>。<br />
num_speculative_tokens我测了2,3,4,5。效果上3最好。</p>
<p dir="auto">启动脚本：</p>
<pre><code>root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
#!/bin/bash
source /root/.bashrc
source /root/venv/bin/activate
# vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
# 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
#   TP: tensor-parallel size，默认 2
#   PP: pipeline-parallel size，默认 1

set -e

# ========== 参数 ==========
TP="${1:-${TP:-2}}"
PP="${2:-${PP:-1}}"
MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
PORT="${PORT:-8000}"
HOST="${HOST:-0.0.0.0}"
MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
TOP_P="${TOP_P:-0.95}"
TOP_K="${TOP_K:-20}"
MIN_P="${MIN_P:-0.0}"
REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"

# speculative decoding
SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'

# 推理模板参数（关闭 thinking）
CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'

# ========== 环境变量 ==========
export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export NCCL_CUMEM_ENABLE=0
export NCCL_P2P_DISABLE=0
export VLLM_NO_USAGE_STATS=1
export VLLM_USE_FLASHINFER_SAMPLER=1
export OMP_NUM_THREADS=1
export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"

# NVLink 检测（自行补充 detect_nvlink.sh 逻辑，或删掉这两行）
# source /etc/club3090/detect_nvlink.sh
# _NVLINK_ENABLED=0  # 手动设置：0=无NVLink, 1=NvLink开启

# ========== 构建命令 ==========
ARGS=(
    --model "$MODEL_PATH"
    --served-model-name qwen3.6-27b-autoround
    --quantization auto_round
    --dtype float16
    --tensor-parallel-size "$TP"
    --pipeline-parallel-size "$PP"
    --max-model-len "$MAX_MODEL_LEN"
    --gpu-memory-utilization "$GPU_MEM_UTIL"
    --max-num-seqs 2
    --max-num-batched-tokens 8192
    --kv-cache-dtype "$KV_CACHE_DTYPE"
    --trust-remote-code
  #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
    --reasoning-parser qwen3
    --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --enable-prefix-caching
    --enable-chunked-prefill
    --disable-custom-all-reduce
    --speculative-config "$SPECULATIVE_CONFIG"
    --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
    --host "$HOST"
    --port "$PORT"
)

echo "=========================================="
echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
echo "=========================================="
echo "命令: vllm serve ${ARGS[*]}"
echo ""

exec vllm serve "${ARGS[@]}"
deactivate
</code></pre>
<p dir="auto"><img src="https://upload.lcz.me/uploads/1a978b0a-5f33-493d-b3d4-2fc116697bb0.jpeg" alt="690b1b73-3362-480f-aa88-ced512707a88-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/ed918294-4dd6-4cdc-a3db-b1f2b88104f5.jpeg" alt="8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/4008</link><guid isPermaLink="true">https://lcz.me/post/4008</guid><dc:creator><![CDATA[davidwei0826]]></dc:creator><pubDate>Thu, 28 May 2026 05:36:31 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 23:52:29 GMT]]></title><description><![CDATA[<p dir="auto">以不含 NVLink 的 PCI 3.0x8 雙道作為對比。 Hermes 96k 上下文大約是 52~55 t/s - Power Limit 250w. So 500w Total, ~46GB VRAM.</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/4ab79f04-9b98-4fa6-af76-bd67c81239b8.jpeg" alt="cd343cb0-f491-4853-81f6-6b5573d14868-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/145deb65-c918-41e1-a91b-1b4925d957a5.jpeg" alt="91ca83bd-b9b1-4e6c-bdf2-b044bb522bd5-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">python -m vllm.entrypoints.openai.api_server<br />
--model ~/AiModel/Qwen3.6-27B-AWQ-QuantTrio<br />
--gpu-memory-utilization 0.95<br />
--max-model-len 98304<br />
--enable-auto-tool-choice<br />
--tool-call-parser hermes<br />
--tensor-parallel-size 2<br />
--host 0.0.0.0<br />
--port 8000</p>
]]></description><link>https://lcz.me/post/3974</link><guid isPermaLink="true">https://lcz.me/post/3974</guid><dc:creator><![CDATA[AresROC]]></dc:creator><pubDate>Wed, 27 May 2026 23:52:29 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 21:28:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 速度差不多就别折腾了。</p>
]]></description><link>https://lcz.me/post/3968</link><guid isPermaLink="true">https://lcz.me/post/3968</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 27 May 2026 21:28:28 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 17:00:39 GMT]]></title><description><![CDATA[<p dir="auto">我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印</p>
<p dir="auto">现在hermes 接入llama Qwen3.6-27B-uncensored-heretic<br />
kv Q8_0 216k context(还没试)<br />
prefill 800-900t/s<br />
全模态吞吐 40t/s<br />
也算可以用</p>
<p dir="auto">接下来玩下comfyUi</p>
<p dir="auto">nvlink 就有点浪费 多花了3000好像</p>
]]></description><link>https://lcz.me/post/3956</link><guid isPermaLink="true">https://lcz.me/post/3956</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Wed, 27 May 2026 17:00:39 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 16:29:48 GMT]]></title><description><![CDATA[<p dir="auto">其实我有点想折腾一下TURBO3非对称KV量化，不知道有没有朋友试过</p>
]]></description><link>https://lcz.me/post/3954</link><guid isPermaLink="true">https://lcz.me/post/3954</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Wed, 27 May 2026 16:29:48 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 16:28:58 GMT]]></title><description><![CDATA[<p dir="auto">应该还有空间，其实我单卡MTP=2跑到150K上下文都还有40TS左右，下降30%-35%，不过模型量化约等于Q4KS，而且你KV是q8的，这样长上下文改善的不单是速度，更重要的是精度，那些缩进错误，变量名出错的问题会少几次，这些它都会自己纠正，不像35B，API TOKEN就算是存在文件里当变量载入，都经常被截断，靠它自己，这道坎就很难迈过去</p>
]]></description><link>https://lcz.me/post/3953</link><guid isPermaLink="true">https://lcz.me/post/3953</guid><dc:creator><![CDATA[vosrock]]></dc:creator><pubDate>Wed, 27 May 2026 16:28:58 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 00:36:03 GMT]]></title><description><![CDATA[<p dir="auto">应该可以快很多，可以看一下我的双 3060 帖子</p>
]]></description><link>https://lcz.me/post/3857</link><guid isPermaLink="true">https://lcz.me/post/3857</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Wed, 27 May 2026 00:36:03 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Wed, 27 May 2026 00:10:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> prefill应该是最快的可以双卡同时算，后面就单卡了。感觉最大的优势还是48g，关注一波</p>
]]></description><link>https://lcz.me/post/3856</link><guid isPermaLink="true">https://lcz.me/post/3856</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Wed, 27 May 2026 00:10:17 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Tue, 26 May 2026 22:04:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 双3090 NVLink 跑 vLLM 确实有几个坑，分享一下排查经验：</p>
<p dir="auto"><strong>vLLM + NVLink 的关键点</strong></p>
<p dir="auto">vLLM 用 NCCL 做 Tensor Parallel 通信，NVLink 只要在 nvidia-smi topo -m 里能看到 NV4，NCCL 会自动走 NVLink，不需要手动配置。但有几个常见翻车点：</p>
<ol>
<li><strong>--tensor-parallel-size 2 没加</strong> — 不加这个参数就是单卡跑，NVLink 自然用不上</li>
<li><strong>Docker --shm-size 不够</strong> — NCCL 需要共享内存做 buffer，推荐 --shm-size=16g，太小会报 NCCL 超时</li>
<li><strong>CUDA_VISIBLE_DEVICES 顺序问题</strong> — NVLink 拓扑依赖 PCIe 插槽顺序，如果两张卡物理上是通过 NVLink 桥连的但 CUDA_VISIBLE_DEVICES 指定了非相邻的卡号，NCCL 可能不走 NVLink</li>
<li><strong>NCCL_NVLS_ENABLE=1</strong> — 新版 vLLM（0.8.x+）有时需要这个环境变量来强制启用 NVLink 的 NVLS（NVLINK SHARP）协议</li>
</ol>
<p dir="auto"><strong>建议调试步骤：</strong></p>
<ol>
<li>先裸机（不用 Docker）跑 vLLM，排除 Docker 的共享内存问题：<code>python -m vllm.entrypoints.openai.api_server --model Qwen3.6-27B --tensor-parallel-size 2</code></li>
<li>如果报 NCCL 错误，加 <code>export NCCL_DEBUG=INFO</code> 看通信路径——输出里如果有 <code>NVLink</code> 字样说明走对了</li>
<li>还不行的话加 <code>--enforce-eager</code> 试试，关闭 CUDAGraph 有时能避开 NVLink 通信的 graph capture 问题</li>
</ol>
<p dir="auto">不过说回来，你已经用 llama.cpp 跑得很好了（双卡 prefill 6k+ t/s 相当不错），vLLM 在双 3090 上的优势主要是 OpenAI 兼容 API 和更灵活的调度。如果不需要多用户并发或者 API 服务，llama.cpp 的推理速度其实够用了。</p>
]]></description><link>https://lcz.me/post/3847</link><guid isPermaLink="true">https://lcz.me/post/3847</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Tue, 26 May 2026 22:04:07 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Tue, 26 May 2026 13:36:20 GMT]]></title><description><![CDATA[<p dir="auto">搞不定vllm nvlink 没得发挥</p>
]]></description><link>https://lcz.me/post/3815</link><guid isPermaLink="true">https://lcz.me/post/3815</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Tue, 26 May 2026 13:36:20 GMT</pubDate></item><item><title><![CDATA[Reply to 双 3090（NVLink）跑 Qwen3.6-27B，128K 上下文实测 on Tue, 26 May 2026 12:01:37 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 不错，下次带个截图，你让AI给你生成mark down格式，看起来就很舒服，它会自动排版的，论坛支持markdown文件。</p>
]]></description><link>https://lcz.me/post/3792</link><guid isPermaLink="true">https://lcz.me/post/3792</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 26 May 2026 12:01:37 GMT</pubDate></item></channel></rss>