【交作业】Z390 + 7900XTX，跑vulkan + MTP + 128K上下文，opencode速度33~49tps尚可，但是没人说Qwen3.6 27b MTP不支持视觉啊，换35b-vl-mtp就有视觉了，70~80 tps 快的飞起

Tony Wang

另外, 开启MTP和视觉的话, 把 -c 131072 降低到 65536.

AGI

24g显存很尴尬，q4模型，加上kv都是q4量化，很影响质量，我现在q6量化，kv用q8，上下文只能到90k，

vosrock

将温度降低，一定程度可以抵御KV量化的影响

terry

我是觉得各位要明确自己的需求，论坛xtx跑Q4KM 27b 千问的人很多，先做好基础的文本驱动，能干活才是王道。关于上下文，我认为大家控制好，80k足够了。我的xtx上一次优化，就是80k上下文，我还没有用MTP，TurboQuant之类的，它干活我觉得能接受，也挺安静的，噪音不大，我在边上干活没事。

当然了，我是被4090吵习惯了，我现在也不带耳机在边上做事，它今天跑了8个小时，都是hermes在驱动它，DeepSeek V4 Flash驱动的。在线和本地都用用，不要荒废，保持跟进。AI是工具，不是目的。

欢迎各位朋友自己走过来了，也做点优质的分享内容，帮助论坛和其他人。你发的优质内容多，网站就会留住更多的人，更多的人得到帮助，会形成正向循环。所以不用感谢我，发帖就行了。

你这个显卡选择竖装是很好的决定，挺好看的，我的上了个支架，但是我感觉还是竖装优雅，是不是上了转接卡？

12343954

感谢各位大大关注

如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了，我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
我想过，不行就再加一块显卡跑TP/PP，所以买了7900的高带宽

至于温度，我家底儿就剩5把暴力风扇，都塞进去了（包括显卡背板），温度70度左右，感觉还行，就是噪音像机房，等有空换PWM风扇做个降噪

显卡竖装是看了张哥好多横插gg的案例

codex、antigravity，量越来越少，我一小时就用掉5小时的量，多账号切的我好烦，索性就研究研究线下agent吧

Tony Wang

@12343954

他说的温度是模型的temperature, 模型的温度降低，它不容易胡说八道

12343954

哦，哈哈，小白了，我试试调低模型温度

我又更新了模型，测试快的飞起

johnnybegood

@12343954 一小时用掉5小时的量，都用来做什么

johnnybegood

一小时用掉5小时的量，都做些什么

12343954

@johnnybegood

哈哈，就是模块化开发，同时开2-3个对话，让codex多任务干活，
一个ERP系统迭代升级，其实是换血重写，300个表，20个业务模块，200-300个子功能
我觉得codex的plus量越来越缩水，也可能是任务里的对话太多上下文太长了，也许是代码越写越多，总之现在就是用的小心翼翼，很不爽

但是很爽的一点是，AI写了14万行代码，我一行没写，全程就是喝茶等待

抡锤者

【交作业】Z390 + 7900XTX，跑vulkan + MTP + 128K上下文，opencode速度33~49tps尚可，但是没人说Qwen3.6 27b MTP不支持视觉啊，换35b-vl-mtp就有视觉了，70~80 tps 快的飞起