跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

已定时 已固定 已锁定 已移动 AI硬件
13 帖子 7 发布者 333 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Tony WangT 离线
    Tony WangT 离线
    Tony Wang
    超级版主
    编写于 最后由 编辑
    #3

    和你下载的 MTP 模型有关, 下载 mmproj, 启动加类似 --mmproj 相关目录/mmproj-F16.gguf 试试.

    你这个模型来源于unsloth, unsloth的MTP模型明确支持加载视觉: https://unsloth.ai/docs/models/qwen3.6#mtp-guide .

    不过 7900xtx, 加上MTP, 再加载视觉识别, 显存会比较紧张.

    1 条回复 最后回复
    0
    • Tony WangT 离线
      Tony WangT 离线
      Tony Wang
      超级版主
      编写于 最后由 编辑
      #4

      另外, 开启MTP和视觉的话, 把 -c 131072 降低到 65536.

      1 条回复 最后回复
      0
      • AGIA 离线
        AGIA 离线
        AGI
        技术大牛 劳动模范
        编写于 最后由 编辑
        #5

        24g显存很尴尬,q4模型,加上kv都是q4量化,很影响质量,我现在q6量化,kv用q8,上下文只能到90k,

        https://agi.cd

        1 条回复 最后回复
        0
        • V 离线
          V 离线
          vosrock
          德高望重 劳动模范
          编写于 最后由 编辑
          #6

          将温度降低,一定程度可以抵御KV量化的影响

          1 条回复 最后回复
          0
          • terryT 离线
            terryT 离线
            terry
            超级版主
            编写于 最后由 terry 编辑
            #7

            我是觉得各位要明确自己的需求,论坛xtx跑Q4KM 27b 千问的人很多,先做好基础的文本驱动,能干活才是王道。关于上下文,我认为大家控制好,80k足够了。我的xtx上一次优化,就是80k上下文,我还没有用MTP,TurboQuant之类的,它干活我觉得能接受,也挺安静的,噪音不大,我在边上干活没事。

            当然了,我是被4090吵习惯了,我现在也不带耳机在边上做事,它今天跑了8个小时,都是hermes在驱动它,DeepSeek V4 Flash驱动的。在线和本地都用用,不要荒废,保持跟进。AI是工具,不是目的。

            欢迎各位朋友自己走过来了,也做点优质的分享内容,帮助论坛和其他人。你发的优质内容多,网站就会留住更多的人,更多的人得到帮助,会形成正向循环。所以不用感谢我,发帖就行了。

            你这个显卡选择竖装是很好的决定,挺好看的,我的上了个支架,但是我感觉还是竖装优雅,是不是上了转接卡?

            油管:https://www.youtube.com/@抡锤者

            1 条回复 最后回复
            0
            • 1 离线
              1 离线
              12343954
              编写于 最后由 12343954 编辑
              #8

              感谢各位大大关注

              如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
              我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

              至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

              显卡竖装是看了张哥好多横插gg的案例 😄

              codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

              Tony WangT J 2 条回复 最后回复
              0
              • 1 12343954

                感谢各位大大关注

                如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                显卡竖装是看了张哥好多横插gg的案例 😄

                codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                Tony WangT 离线
                Tony WangT 离线
                Tony Wang
                超级版主
                编写于 最后由 编辑
                #9

                @12343954

                他说的温度是模型的temperature, 模型的温度降低,它不容易胡说八道

                1 条回复 最后回复
                0
                • 1 离线
                  1 离线
                  12343954
                  编写于 最后由 12343954 编辑
                  #10

                  哦,哈哈,小白了,我试试调低模型温度

                  我又更新了模型,测试快的飞起

                  1 条回复 最后回复
                  0
                  • 1 12343954

                    感谢各位大大关注

                    如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                    我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                    至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                    显卡竖装是看了张哥好多横插gg的案例 😄

                    codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                    J 离线
                    J 离线
                    johnnybegood
                    德高望重 劳动模范
                    编写于 最后由 编辑
                    #11

                    @12343954 一小时用掉5小时的量,都用来做什么

                    1 条回复 最后回复
                    0
                    • J 离线
                      J 离线
                      johnnybegood
                      德高望重 劳动模范
                      编写于 最后由 编辑
                      #12

                      一小时用掉5小时的量,都做些什么

                      1 条回复 最后回复
                      0
                      • 1 离线
                        1 离线
                        12343954
                        编写于 最后由 12343954 编辑
                        #13

                        @johnnybegood

                        哈哈,就是模块化开发,同时开2-3个对话,让codex多任务干活,
                        一个ERP系统迭代升级,其实是换血重写,300个表,20个业务模块,200-300个子功能
                        我觉得codex的plus量越来越缩水,也可能是任务里的对话太多上下文太长了,也许是代码越写越多,总之现在就是用的小心翼翼,很不爽

                        但是很爽的一点是,AI写了14万行代码,我一行没写,全程就是喝茶等待

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组