抡锤者

zorg

@Tony-Wang 说:

@johnnybegood

M5 Max 跑 Qwen 122b a10b Q4 的话, 如果内存够, 不大可能只有 20-25t/s.

我的M5 pro 跑 Qwen 27b 稠密加上MTP之后, 还能跑到20以上, 64k上下文时候掉到 17多.

按这个速度推理, M5 max 是我显存带宽的两倍, 它能到 40t/s 以上.

122b A10b 肯定比27b 稠密要快, 应该能跑到 60t/s以上, 我估计.

另外, 122A10 的智力应该不如 27b 稠密, 只是知识面更宽.

请教一下Tony的Qwen27B MTP用的哪个版本的模型？我下了oQ8-mtp，omlx经常退出，看日志好像是mtp的bug，求推荐稳定运行的模型版本，谢谢！

zorg

截屏2026-05-27 15.27.32.png
今天设置了一下Qwen3.6 27B Q8的MTP版本，速度从18左右上升到28，但是8并发速度提升没有太大影响。最终用的是Jundot/Qwen3.6-27B-oQ6-mtp，一开始尝试Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed结果报错，兼容还是没整好。

zorg

是啊，我也在考虑要不要再买一张3090，看起来不用nvlink效果也不错，就是突然发现好像没有看到魔改3080 ti的。

zorg

MTP就是载入慢点儿，速度看来快不少

zorg

The rig: 2× RTX 3080 Ti (12GB ea, 24GB total), i7-7700K, Z270, PCIe 3.0 x8/x8, no NVLink → layer-split, not tensor-parallel. Q4_K_M (~17GB), q4_0 KV, MTP n=3. Both cards power-capped at 300W (from 400W stock) — deliberate for thermals/efficiency, ~5% cost, and it sets up a power-scaling test later. All numbers below
@300W
就如捶兄所说，cpu不太重要

zorg

3080ti这速度不错啊
Qwen3.6-27B-MTP at ~61 tok/s. 100k context.
On two used RTX 3080 Tis — not the RTX 3090 everyone benchmarks (24GB, but split across 2 cards on PCIe 3.0 x8/x8, no NVLink).

Running llama.cpp's new MTP speculative decoding. The deep-context bottleneck? Nobody's talking about it. 🧵
(

zorg

@williamlouis 多谢，我去试试，btw刚升级了Hermes0.14，又有新的功能，一起试试哈

zorg

我试过用hermes和qwen3.6 27b打印显卡坞的文件，效果也还行

zorg

我也是在看，turboquant会不会有加成。

zorg

@terry 哪里，这是Tech Notice的测试，给大家参考

zorg

看起来M芯片还不错截屏2026-05-15 12.08.10.png

zorg

@williamlouis 嗯，还没有看到27B的稠密，moe的话小的觉得还是差更多。

zorg

另外大家有没有用过majentik的Qwen3.6 35B turboquangt版本的模型？不知道缓存管理和精准度如何？目前看好像最大就是35B，希望短期内能看到27B或者122B的版本。

zorg

@williamlouis 谢谢提醒，希望2年后ssd不要太超纲。

zorg

过年的时候我看美亚4199美，看来已经涨价了

zorg

@Tony-Wang 多谢，看来如果是算力瓶颈不知道用exo类似的方案是否可以提高速度。

zorg

个人感觉上开了thinking是慢一些，如果以后再慢的话我考虑关掉，不知道大家有什么经验

zorg

升级了0.3.8略有提升
截屏2026-05-12 09.17.07.png

zorg

升级0.3.8以后略有提升截屏2026-05-12 09.17.07.png

zorg

24G 内存还是不够，我的MBP M4 pro，后台就占了几个G，模型基本装不下，触发了交换速度一下就慢下来了。

抡锤者

zorg

帖子