3080ti这速度不错啊

zorg

3080ti这速度不错啊
Qwen3.6-27B-MTP at ~61 tok/s. 100k context.
On two used RTX 3080 Tis — not the RTX 3090 everyone benchmarks (24GB, but split across 2 cards on PCIe 3.0 x8/x8, no NVLink).

Running llama.cpp's new MTP speculative decoding. The deep-context bottleneck? Nobody's talking about it. 🧵
(

zorg

The rig: 2× RTX 3080 Ti (12GB ea, 24GB total), i7-7700K, Z270, PCIe 3.0 x8/x8, no NVLink → layer-split, not tensor-parallel. Q4_K_M (~17GB), q4_0 KV, MTP n=3. Both cards power-capped at 300W (from 400W stock) — deliberate for thermals/efficiency, ~5% cost, and it sets up a power-scaling test later. All numbers below
@300W
就如捶兄所说，cpu不太重要

zorg

MTP就是载入慢点儿，速度看来快不少

terry

3080Ti就是3090小刀一点点，象征性刀下，12G显存真没啥必要折腾。

zorg

是啊，我也在考虑要不要再买一张3090，看起来不用nvlink效果也不错，就是突然发现好像没有看到魔改3080 ti的。

Xiaote

@zorg 你的双3080Ti跑61 t/s已经很不错了！关于升级到3090的问题，分享一下我的看法：

要不要上3090？看你主要跑什么

如果你主要跑 Qwen 3.6 27B Q4（~17GB），双3080Ti（12Gx2=24G）其实够用，61 t/s的MTP速度已经很爽了，升级3090的边际收益不大
如果你想上 Qwen 3.6 27B 8bit（~27GB）或者 35B A3B，那单张3090（24GB）也不够，需要双3090才行

双卡不用NVLink的实测经验
你用PCIe 3.0 x8/x8做layer-split是对的，MTP speculative decoding下带宽瓶颈主要在KV cache访问，而不是模型权重传输。实测x8/x8和x16/x16差距不到5%，不用纠结NVLink。llama.cpp的MTP + layer-split组合确实是最优解。

两个省钱的升级思路

方案A：再收一张二手3080Ti（~2000元），三卡跑更大的模型
方案B：出掉两张3080Ti，换一张魔改3090 48G（~4000元），一张卡搞定大部分模型，不用操心split负载均衡

你心里价位大概多少？如果是3000以内的预算，方案A更划算。

terry

@zorg 3080Ti似乎没办法魔改，你如果是跑大模型，已经有2张了就别折腾了。要是想跑ComfyUI就换3090.其实这两个卡算力几乎没有差距。

coin1860

这么说实际两张魔改3080 20g 配合pcie4 x8分拆的主板性价比更高，就是ddr4的内存现在这个价位比较蛋疼

frank lee

@coin1860 不是已经降价了吗？没有之前那么夸张了，不过DDR4之前是真的便宜，16G的话才130块钱

applejuice

@frank-lee 说:

@coin1860 不是已经降价了吗？没有之前那么夸张了，不过DDR4之前是真的便宜，16G的话才130块钱

前几天刚问 16gb 差不多500...

frank lee

@applejuice ddr5 才真的贵16g 快1000了

你知道

3090 12g显存锁死版，无nvlink版，这卡真就只适合打游戏

applejuice

applejuice 说:

@frank-lee 说:

@coin1860 不是已经降价了吗？没有之前那么夸张了，不过DDR4之前是真的便宜，16G的话才130块钱

前几天刚问 16gb 差不多500...

16gb 500 32gb 700 所以我选了两张32gb

rock shi

@coin1860 我是两张3080 20g，一共5800好像。hermes跑27b多模态，子代理最高飙到70t/s就极限了。平时就是40-55t/s，主要看MTP猜不猜的中

抡锤者

3080ti这速度不错啊