7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

jenaflex

上述测试，都是自己编译对吧？

另外，你有试过这个修复MTP多模态的吗（需要cherrypick）？
https://github.com/ggml-org/llama.cpp/issues/22867

David Zhang

@jenaflex 对，开个opencode，你让它给你搞完了，不难

https://github.com/ggml-org/llama.cpp/issues/22867
一会儿我试试看

David Zhang

@jenaflex
https://github.com/ggml-org/llama.cpp/issues/22867 这里提到的change:
https://github.com/am17an/llama.cpp/pull/5
不管用，再 Rocm下照样爆VRAM

terry

佳作，容老夫慢慢研究，多发几个截图，我嫖来当素材

David Zhang

@terry 没问题，我有空了发截图和数据。

David Zhang

下班开始折腾

Michael Zhou

这个太棒了，先顶再抄作业。

Devin Hi

没有完全按楼主提供的模型，只是增加了mmproj，感觉7900 不到30t/s，不知道Hermis怎么样。“/home/devin/work/llama.cpp-turboquant/build/bin/llama-server
-m /home/devin/work/models/Qwen3.6-27B-Q4_K_M.gguf
--mmproj /home/devin/work/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
--host 0.0.0.0
--port 8081
--n-gpu-layers 999
--ctx-size 262144
--batch-size 2048
--ubatch-size 768
--threads 8
--temp 1.0
--top-p 0.95
--top-k 20
--min-p 0.00
--presence_penalty 1.5
--cache-type-k turbo3
--cache-type-v turbo3”

David Zhang

@Devin-Hi

绝大多数量化后的模型把mtp layer 给砍掉了，你得下载代mtp的量化模型才有效果

David Zhang

Rocm 不开MTP

Rocm 开MTP

Vulkan 不开MTP

Vulkan 开MTP

ctx:256k
`
ctx:4k

terry

@David-Zhang 我靠发力了啊。

apple

这帖子质量很高啊，可以入精华了

饲养员

牛逼！学习学习！

williamlouis

我只希望没买卡的规避7900XTX。小霸王学习机吗？

David Zhang

@williamlouis 分享下遇到的坑，让大伙吃个瓜

iamvirus

这些测试我都复现了，但是上qwen code 或者opencode 慢出翔！还不如9B好，至少能出活

David Zhang

@iamvirus 我最近也再测 omnicoder-9b，目前效果不错，前端后端指哪打哪，速度也很快。干复杂的屎山目前看还是得 27b，慢就慢点，只能同时多开几个任务。

Devin Hi

@williamlouis
为啥？
我感觉挺好，这是穷人玩AI的最佳选择
玩3090 怕遇到矿卡
再往上就不是穷人了。

Devin Hi

此配置经测试（Hermes跑大任务），24G的显存容易爆OOM

所以改为了
--ctx-size 65536
--batch-size 512
--ubatch-size 128 \

y2k

感谢老哥，感谢分享

抡锤者

7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

Rocm 不开MTP

Rocm 开MTP

Vulkan 不开MTP

Vulkan 开MTP

Rocm 不开MTP

Rocm 开MTP

Vulkan 不开MTP

Vulkan 开MTP