跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

【交作业】Z390 + 7900XTX,跑vulkan + MTP + 128K上下文,opencode速度33~49tps尚可,但是没人说Qwen3.6 27b MTP不支持视觉啊,换35b-vl-mtp就有视觉了,70~80 tps 快的飞起

已定时 已固定 已锁定 已移动 AI硬件
13 帖子 7 发布者 333 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 1 离线
    1 离线
    12343954
    编写于 最后由 12343954 编辑
    #1

    IMG_1147.jpg

    也是被锤哥种草后,
    看到大神的测试 https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
    入手7900XTX,本来犹豫RX 9700它的大显存,但最后还是要了7900XTX的 960 GB/s 位宽

    也不会做测试,就直接抄大神作业吧,全程不会就问候 codex

    直接上图

    ~$ ./start-hermes-qwen-mtp-vulkan.sh device
    CPU: Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz (8T)
    主板: Gigabyte Technology Co., Ltd. Z390 UD | PCIe 3.0 16.0 GT/s x16
    内存: 62.66Gi total, 37.53Gi available, 25.13Gi used
    显卡1: [AMD/ATI] Radeon RX 7900 XT/7900 XTX/7900M 24GB
               显存: 19.03GB/24GB
    显卡2: [Intel] UHD Graphics 630
    
    ~$ ./start-hermes-qwen-mtp-vulkan.sh tps
    log: ~/.hermes/llama-server-mtp-vulkan-8081.log
       task prompt_tok prompt_tps  gen_tok   gen_tps  total_s    draft
    ------------------------------------------------------------------------
          0      26298     537.42       38     43.15    49.81     0.82
         69      12727     427.73      272     44.69    35.84     0.77
        204      13037     405.16      138     47.08    35.11     0.85
        284       6176     377.37      179     37.44    21.15     0.65
        377        269     205.94      157     37.23     5.52     0.70
        446       6682     379.34      244     38.17    24.01     0.70
        565        344     239.22       62     44.11     2.84     0.93
        591        631     285.02      305     39.23     9.99     0.69
        724       1263     199.73       52     49.91     7.37     1.00
        747        225      62.91      101     45.20     5.81     0.93
        786        504     260.78      117     41.00     4.79     0.96
        830        834     280.13       52     35.17     4.46     0.89
        854        143     189.96       56     46.10     1.97     1.00
        877        228      64.65      122     37.29     6.80     0.98
        922        931     283.77       71     33.98     5.37     0.88
        953        205     186.53      419     36.35    12.63     0.74
    
    ~$ ./start-hermes-qwen-mtp-vulkan.sh status
    Hermes + Qwen Vulkan MTP
      llama binary : ~/llm/llama.cpp/build-vulkan/bin/llama-server
      model        : ~/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf
      context      : 131072
      draft n      : 2
      llama log    : ~/.hermes/llama-server-mtp-vulkan-8081.log
      llama-server : running pid=3639
      Hermes Web UI: running
      Hermes gateway: running
    
    URLs:
      llama-server: http://192.168.1.241:8081/v1
      Hermes UI   : http://192.168.1.241:8648
    

    llama-server 启动参数

    ~/llama.cpp/build-vulkan/bin/llama-server \
      -m ~/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf \
      --host 0.0.0.0 \
      --port 8081 \
      -ngl 999 \
      -np 1 \
      -c 131072 \
      -fa on \
      -ctk q4_0 \
      -ctv q4_0 \
      -b 512 \
      -ub 512 \
      --cache-ram 8192 \
      --jinja \
      --reasoning off \
      --reasoning-format none \
      --spec-type draft-mtp \
      --spec-draft-n-max 2 \
      --temp 0.6 \
      --top-p 0.95 \
      --top-k 20 \
      --min-p 0.0 \
      --presence-penalty 1.5 \
      --alias qwen3.6-27b-mtp-q4-vulkan
    

    硬件拉跨点儿,不过跑128K上下文,速度33~49tps,还可以,也就忍了,
    就是只能单并发跑llama-server,折腾到最后发现 qwen 3.6 27b MTP 不支持视觉识别,看来还得折腾 5090 给它配个视觉模型

    opencode

    未命名-2.jpg

    最后感谢锤哥和坛子里诸位大神,受益匪浅~~

    .
    .
    .
    .
    ------------2026-6-13更新-----------------

    有 @tony-wang 大大提点,一大早起来开始折腾,又问候了codex,才有了巨大进展,可以视觉识别 + 70-80 tps了,依旧是128K上下文

    未命名-3.jpg

    未命名-4.jpg

    未命名-5.jpg

    opencode 增加视觉识别

    未命名-6.jpg

    ~$ ./start-hermes-qwen-35b-a3b-heretic-mtp-vl-vulkan.sh status
    Hermes + Qwen Vulkan 35B-A3B Heretic MTP+VL
      llama binary : ~/llm/llama.cpp/build-vulkan/bin/llama-server
      model        : ~/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-Q4_K_S.gguf
      mmproj       : ~/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-mmproj-BF16.gguf
      context      : 131072
      n-cpu-moe    : 0
      draft n      : 2
      llama log    : ~/.hermes/llama-server-35b-a3b-heretic-mtp-vl-vulkan-8081.log
      llama-server : running pid=61860
      Hermes Web UI: running
      Hermes gateway: running
    
    URLs:
      llama-server: http://192.168.1.241:8081/v1
      Hermes UI   : http://192.168.1.241:8648
    
    ~$ ./start-hermes-qwen-35b-a3b-heretic-mtp-vl-vulkan.sh tps
    log: ~/.hermes/llama-server-35b-a3b-heretic-mtp-vl-vulkan-8081.log
       task prompt_tok prompt_tps  gen_tok   gen_tps  total_s    draft
    ------------------------------------------------------------------------
          0      25098    1670.17       10     86.48    15.14     1.00
         32         48     215.40       56     82.11     0.90     0.97
         55        706     817.41      217     70.99     3.92     0.71
        150        349     643.16      217     78.72     3.30     0.93
        230        253     658.78      383     80.40     5.15     0.99
        362       1533     955.48       38     77.28     2.10     0.96
        380         73     238.06       38     79.33     0.79     0.96
        397        142     403.83       32     58.86     0.90     0.37
        420        241     654.80       83     75.23     1.47     0.74
        458        700     630.55     1153     75.61    16.36     0.62
        978       1559     989.51      243     63.39     5.41     0.54
       1100        340     657.48      290     70.11     4.65     0.70
    
    

    n-cpu-moe=999,全放在CPU,很慢,20 tps
    n-cpu-moe=0,显存占用21.421Gi/23.984Gi,速度很快,128K上下文,70-80 tps,肉眼可见的快,给一张图片,很快能识别出来,小图2~3秒,大图6秒,执行任务也飞起,快得我有点怀疑人生

    这回不用愁不会写提示词了 😄

    一会儿测试一下编程能力

    1 条回复 最后回复
    3
    • S 离线
      S 离线
      sospda
      德高望重
      编写于 最后由 编辑
      #2

      支持视觉 千问3.5以上都支持

      1 条回复 最后回复
      0
      • Tony WangT 离线
        Tony WangT 离线
        Tony Wang
        超级版主
        编写于 最后由 编辑
        #3

        和你下载的 MTP 模型有关, 下载 mmproj, 启动加类似 --mmproj 相关目录/mmproj-F16.gguf 试试.

        你这个模型来源于unsloth, unsloth的MTP模型明确支持加载视觉: https://unsloth.ai/docs/models/qwen3.6#mtp-guide .

        不过 7900xtx, 加上MTP, 再加载视觉识别, 显存会比较紧张.

        1 条回复 最后回复
        0
        • Tony WangT 离线
          Tony WangT 离线
          Tony Wang
          超级版主
          编写于 最后由 编辑
          #4

          另外, 开启MTP和视觉的话, 把 -c 131072 降低到 65536.

          1 条回复 最后回复
          0
          • AGIA 离线
            AGIA 离线
            AGI
            技术大牛 劳动模范
            编写于 最后由 编辑
            #5

            24g显存很尴尬,q4模型,加上kv都是q4量化,很影响质量,我现在q6量化,kv用q8,上下文只能到90k,

            https://agi.cd

            1 条回复 最后回复
            0
            • V 离线
              V 离线
              vosrock
              德高望重 劳动模范
              编写于 最后由 编辑
              #6

              将温度降低,一定程度可以抵御KV量化的影响

              1 条回复 最后回复
              0
              • terryT 在线
                terryT 在线
                terry
                超级版主
                编写于 最后由 terry 编辑
                #7

                我是觉得各位要明确自己的需求,论坛xtx跑Q4KM 27b 千问的人很多,先做好基础的文本驱动,能干活才是王道。关于上下文,我认为大家控制好,80k足够了。我的xtx上一次优化,就是80k上下文,我还没有用MTP,TurboQuant之类的,它干活我觉得能接受,也挺安静的,噪音不大,我在边上干活没事。

                当然了,我是被4090吵习惯了,我现在也不带耳机在边上做事,它今天跑了8个小时,都是hermes在驱动它,DeepSeek V4 Flash驱动的。在线和本地都用用,不要荒废,保持跟进。AI是工具,不是目的。

                欢迎各位朋友自己走过来了,也做点优质的分享内容,帮助论坛和其他人。你发的优质内容多,网站就会留住更多的人,更多的人得到帮助,会形成正向循环。所以不用感谢我,发帖就行了。

                你这个显卡选择竖装是很好的决定,挺好看的,我的上了个支架,但是我感觉还是竖装优雅,是不是上了转接卡?

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                0
                • 1 离线
                  1 离线
                  12343954
                  编写于 最后由 12343954 编辑
                  #8

                  感谢各位大大关注

                  如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                  我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                  至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                  显卡竖装是看了张哥好多横插gg的案例 😄

                  codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                  Tony WangT J 2 条回复 最后回复
                  0
                  • 1 12343954

                    感谢各位大大关注

                    如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                    我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                    至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                    显卡竖装是看了张哥好多横插gg的案例 😄

                    codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                    Tony WangT 离线
                    Tony WangT 离线
                    Tony Wang
                    超级版主
                    编写于 最后由 编辑
                    #9

                    @12343954

                    他说的温度是模型的temperature, 模型的温度降低,它不容易胡说八道

                    1 条回复 最后回复
                    0
                    • 1 离线
                      1 离线
                      12343954
                      编写于 最后由 12343954 编辑
                      #10

                      哦,哈哈,小白了,我试试调低模型温度

                      我又更新了模型,测试快的飞起

                      1 条回复 最后回复
                      0
                      • 1 12343954

                        感谢各位大大关注

                        如果有 “视觉 + MTP + 40-50 tps + 128K上下文” 方案那就太好了,我让AI看看 https://unsloth.ai/docs/models/qwen3.6#mtp-guide
                        我想过,不行就再加一块显卡跑TP/PP,所以买了7900的高带宽

                        至于温度,我家底儿就剩5把暴力风扇,都塞进去了(包括显卡背板),温度70度左右,感觉还行,就是噪音像机房,等有空换PWM风扇做个降噪

                        显卡竖装是看了张哥好多横插gg的案例 😄

                        codex、antigravity,量越来越少,我一小时就用掉5小时的量,多账号切的我好烦,索性就研究研究线下agent吧

                        J 离线
                        J 离线
                        johnnybegood
                        德高望重 劳动模范
                        编写于 最后由 编辑
                        #11

                        @12343954 一小时用掉5小时的量,都用来做什么

                        1 条回复 最后回复
                        0
                        • J 离线
                          J 离线
                          johnnybegood
                          德高望重 劳动模范
                          编写于 最后由 编辑
                          #12

                          一小时用掉5小时的量,都做些什么

                          1 条回复 最后回复
                          0
                          • 1 离线
                            1 离线
                            12343954
                            编写于 最后由 12343954 编辑
                            #13

                            @johnnybegood

                            哈哈,就是模块化开发,同时开2-3个对话,让codex多任务干活,
                            一个ERP系统迭代升级,其实是换血重写,300个表,20个业务模块,200-300个子功能
                            我觉得codex的plus量越来越缩水,也可能是任务里的对话太多上下文太长了,也许是代码越写越多,总之现在就是用的小心翼翼,很不爽

                            但是很爽的一点是,AI写了14万行代码,我一行没写,全程就是喝茶等待

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组