跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 还以为会很折腾,没想到一下就好了弄好了:7900xtx

还以为会很折腾,没想到一下就好了弄好了:7900xtx

已定时 已固定 已锁定 已移动 LLM讨论区
6 帖子 4 发布者 325 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • B 离线
    B 离线
    bwghh
    编写于 最后由 bwghh 编辑
    #1

    618 买的 7900xtx + 1200w金牌电源套装,6300左右。
    有个闲置的老服务器,E52670 v2(原本是V1,听说没有pcie atomics,花了70块钱买了两块V2换上)64G ddr3,华硕Z9PA-D8主板,去年送人都没人要,今年拿来跑hermes了。
    到货之后,就换上电源,插上显卡,开机。
    配置如下:

    Hardware: ASUS Z9PA-D8 + 2x E5-2670 V2 + 64GB DDR3 ECC + RX 7900 XTX 24GB
    OS: Ubuntu 24.04 Server
    Driver: Mesa 26.1.2 (RADV NAVI31)
    Backend: Vulkan
    llama.cpp: b9664 + 最新版自编译
    

    两个模型:
    Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf
    Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf
    配对应的mmproj 。

    启动脚本:
    27B:

    #!/bin/bash
    
    # 1. 注入 AMD Vulkan 专属性能优化变量
    export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
    export GGML_VK_VISIBLE_DEVICES=0
    
    # 2. 启动服务
    exec /data/llamacpp/llama-server-active \
       -m /data/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf \
       --mmproj /data/models/mmproj-27B-F16.gguf \
       -ngl 999 \
       -c 131072\
       -np 1 \
       -ctk q8_0 -ctv q8_0 \
       -fa on \
       --image-min-tokens 1024 \
       --jinja \
       --chat-template-file /data/models/fix-chat_template.jinja \
       --spec-type draft-mtp --spec-draft-n-max 2 \
       --host 0.0.0.0 \
       --port 7890 \
       --api-key xxxxxxx \
       --alias qwen-36-27B\
       --metrics
    

    35B:

    #!/bin/bash
    
    # 1. 注入 AMD Vulkan 专属性能优化变量
    export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
    export GGML_VK_VISIBLE_DEVICES=0
    
    # 2. 启动服务
    exec /data/llamacpp/llama-server-active \
       -m /data/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf \
       --mmproj /data/models/mmproj-35B-A3B-F16.gguf \
       -ngl 999 \
       -c 262144 \
       -np 1 \
       -b 2048 -ub 2048 \
       -ctk q4_0 -ctv q4_0 \
       -fa on \
       --cache-reuse 4096 \
       --image-min-tokens 1024 \
       --jinja \
       --chat-template-file /data/models/fix-chat_template.jinja \
       --host 0.0.0.0 \
       --port 7890 \
       --api-key xxxxxxx \
       --alias qwen-36-35BA3B \
       --metrics
    

    速度情况:
    Qwen3.6 35BA3B:开启后约剩余4G显存

    简单测试了一个58000 token 大文本(约10万汉字)prefill 大概2000,decode 大概116-117。
    82f11808-2e67-4966-9ae9-707de2e9af9f-image.jpeg
    简单测试问答与千字左右文本生成:decode速度大概 130+
    bbd807d7-3159-4566-a759-bcde0bc22022-image.jpeg
    图片分析速度跟大文本差不多,不浪费资源了。

    Qwen3.6 27B,开启后约剩余1G显存

    58000token 大文本:prefill 平均600,decode 大概45。
    8e04cbcc-9c55-48bb-b9dd-02946b26882a-image.jpeg
    简单问答千字左右文本生成:decode 大概 70+
    3b538646-ffd1-4116-b3b5-f7c0bc4c81af-image.jpeg

    之前是用5090D32G vllm Qwen3.6-27B nvfp4量化。速度大概prefill 7000+ decode 200+。7900xtx 跑 35BA3B效果勉强能接近。目前就以35BA3B为主要模型在运行。

    用途:
    1 hermes 底座模型,配合修改过的jinja模板,实测没有出现bug,日常工作效果凑合。我不用hermes 开发,纯维护一些自动化脚本,rag库,搜索引擎服务之类的。
    2 RSS重度使用者,vibe了一个自用的RSS阅读器,BYOK,无限token没心理负担,用llm实现快速新闻归类,新闻摘要,注意力等级标签等等。适合不喜欢推荐算法,希望保持大量阅读的用户:https://github.com/bemoons/KickRSS
    3 沉浸式翻译,ocr,各种小ai应用等等。

    1 条回复 最后回复
    3
    • nami ryuuN 离线
      nami ryuuN 离线
      nami ryuu
      编写于 最后由 编辑
      #2

      fix-chat_template.jinja \ 这个模板主要起什么作用?
      你可以分享这个模板吗?我试一试你的这个。

      B 1 条回复 最后回复
      0
      • nami ryuuN nami ryuu

        fix-chat_template.jinja \ 这个模板主要起什么作用?
        你可以分享这个模板吗?我试一试你的这个。

        B 离线
        B 离线
        bwghh
        编写于 最后由 bwghh 编辑
        #3

        @nami-ryuu

        好的,这个模板是从qwen3.5就在用的,主要是修复qwen系列工具调用标签的问题。
        论坛好像没办法上传文件?
        放在这里了:https://github.com/bemoons/KickRSS-Go/releases/download/kickRSS/fix-chat_template.tar.gz

        1 条回复 最后回复
        0
        • ,terryT terry 固定了此主题
        • terryT 离线
          terryT 离线
          terry
          超级版主
          编写于 最后由 terry 编辑
          #4

          其实这玩意现在太多人跑过,是非常确定的路,comfyUI都被大量验证了,AMD的生态已经很成熟了,只是少数算子和节点支持不好。可以补充一点自己的装机图片,更加真实。

          论坛只能上传2M以内的附件,理论上可以开放大文件上传,因为架构和云端资源都支持,但是权限颗粒度不够,我以后稍微研究下,让高等级的人可以上传100M的附件。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0
          • B 离线
            B 离线
            bwghh
            编写于 最后由 编辑
            #5

            补充一点,测试了几个二进制版本,B9664版本的llamacpp vulkan 是速度最快的。最新的自编译版本B9755 速度也很快。两个版本之间的B975x 都会有10%左右的速度损失。应该是llamacpp主线在针对mtp做优化。

            1 条回复 最后回复
            0
            • hanyoudH 离线
              hanyoudH 离线
              hanyoud
              编写于 最后由 编辑
              #6

              点赞 收藏,也打算入7900XTX

              1 条回复 最后回复
              0
              • ,系统 取消固定了此主题

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组