跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

已定时 已固定 已锁定 已移动 AI硬件
13 帖子 7 发布者 333 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Tony WangT 离线
    Tony WangT 离线
    Tony Wang
    超级版主
    编写于 最后由 编辑
    #4

    另外, 开启MTP和视觉的话, 把 -c 131072 降低到 65536.

    1 条回复 最后回复
    0
    • AGIA 离线
      AGIA 离线
      AGI
      技术大牛 劳动模范
      编写于 最后由 编辑
      #5

      24g显存很尴尬,q4模型,加上kv都是q4量化,很影响质量,我现在q6量化,kv用q8,上下文只能到90k,

      https://agi.cd

      1 条回复 最后回复
      0
      • V 离线
        V 离线
        vosrock
        德高望重 劳动模范
        编写于 最后由 编辑
        #6

        将温度降低,一定程度可以抵御KV量化的影响

        1 条回复 最后回复
        0
        • terryT 在线
          terryT 在线
          terry
          超级版主
          编写于 最后由 terry 编辑
          #7

          我是觉得各位要明确自己的需求,论坛xtx跑Q4KM 27b 千问的人很多,先做好基础的文本驱动,能干活才是王道。关于上下文,我认为大家控制好,80k足够了。我的xtx上一次优化,就是80k上下文,我还没有用MTP,TurboQuant之类的,它干活我觉得能接受,也挺安静的,噪音不大,我在边上干活没事。

          当然了,我是被4090吵习惯了,我现在也不带耳机在边上做事,它今天跑了8个小时,都是hermes在驱动它,DeepSeek V4 Flash驱动的。在线和本地都用用,不要荒废,保持跟进。AI是工具,不是目的。

          欢迎各位朋友自己走过来了,也做点优质的分享内容,帮助论坛和其他人。你发的优质内容多,网站就会留住更多的人,更多的人得到帮助,会形成正向循环。所以不用感谢我,发帖就行了。

          你这个显卡选择竖装是很好的决定,挺好看的,我的上了个支架,但是我感觉还是竖装优雅,是不是上了转接卡?

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0
          • 1 离线
            1 离线
            12343954
            编写于 最后由 12343954 编辑
            #8

            感谢各位大大关注

            如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
            我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

            至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

            显卡竖装是看了张哥好多横插gg的案例 😄

            codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

            Tony WangT J 2 条回复 最后回复
            0
            • 1 12343954

              感谢各位大大关注

              如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
              我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

              至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

              显卡竖装是看了张哥好多横插gg的案例 😄

              codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

              Tony WangT 离线
              Tony WangT 离线
              Tony Wang
              超级版主
              编写于 最后由 编辑
              #9

              @12343954

              他说的温度是模型的temperature, 模型的温度降低,它不容易胡说八道

              1 条回复 最后回复
              0
              • 1 离线
                1 离线
                12343954
                编写于 最后由 12343954 编辑
                #10

                哦,哈哈,小白了,我试试调低模型温度

                我又更新了模型,测试快的飞起

                1 条回复 最后回复
                0
                • 1 12343954

                  感谢各位大大关注

                  如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                  我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                  至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                  显卡竖装是看了张哥好多横插gg的案例 😄

                  codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                  J 离线
                  J 离线
                  johnnybegood
                  德高望重 劳动模范
                  编写于 最后由 编辑
                  #11

                  @12343954 一小时用掉5小时的量,都用来做什么

                  1 条回复 最后回复
                  0
                  • J 离线
                    J 离线
                    johnnybegood
                    德高望重 劳动模范
                    编写于 最后由 编辑
                    #12

                    一小时用掉5小时的量,都做些什么

                    1 条回复 最后回复
                    0
                    • 1 离线
                      1 离线
                      12343954
                      编写于 最后由 12343954 编辑
                      #13

                      @johnnybegood

                      哈哈,就是模块化开发,同时开2-3个对话,让codex多任务干活,
                      一个ERP系统迭代升级,其实是换血重写,300个表,20个业务模块,200-300个子功能
                      我觉得codex的plus量越来越缩水,也可能是任务里的对话太多上下文太长了,也许是代码越写越多,总之现在就是用的小心翼翼,很不爽

                      但是很爽的一点是,AI写了14万行代码,我一行没写,全程就是喝茶等待

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组