跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. AMD 5700G 32G 7900XTX windows11 llama.cpp Windows x64 (Vulkan)跑Qwen3.6-35B-A3B-UD-Q4_K_S交作业

AMD 5700G 32G 7900XTX windows11 llama.cpp Windows x64 (Vulkan)跑Qwen3.6-35B-A3B-UD-Q4_K_S交作业

已定时 已固定 已锁定 已移动 AI硬件
amd7900xtx
7 帖子 3 发布者 179 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • W 离线
    W 离线
    woaikuancheng0
    编写于 最后由 编辑
    #1

    32k上下文

    f606e72e-d575-49a5-9923-9f357c5aa2b8-image.jpeg
    283c6ec7-f7f1-4299-962c-7edd1a4ebba8-image.jpeg

    128k上下文

    bc96d55d-1658-4c65-b724-5adb5568986c-image.jpeg
    de5b8250-5ae9-4f72-9158-ee779226e41c-image.jpeg
    2fdc420e-eef4-4290-b718-596afc538479-image.jpeg
    测不动了,感觉128k还不是上限,反正就是越跑系统内存占用越来越大,吐字速度逐渐变慢!

    1 条回复 最后回复
    3
    • W 离线
      W 离线
      woaikuancheng0
      编写于 最后由 编辑
      #2

      @echo off
      chcp 65001 >nul
      title llama.cpp - Qwen3.6-35B API Server

      set "SCRIPT_DIR=%~dp0"
      set "MODEL=%SCRIPT_DIR%models\Qwen3.6-35B-A3B-UD-Q4_K_S.gguf"

      if not exist "%MODEL%" (
      echo [Error] Model file not found
      pause
      exit /b 1
      )

      cls
      echo ============================================
      echo Qwen3.6-35B-A3B -- Select Context Length
      echo 256 Experts MoE ^| Only 3B active/token
      echo RX 7900 XTX (24GB) ^| 32GB RAM
      echo --cpu-moe: experts on CPU, frees VRAM
      echo ============================================
      echo.
      echo # Context VRAM Speed Note
      echo -- ------- ------ ------ ---------------------------
      echo 1) 32K ~10 GB full GPU, fastest
      echo 2) 65K ~12 GB balanced
      echo 3) 96K ~14 GB
      echo 4) 128K ~16 GB
      echo 5) 196K ~19 GB
      echo 6) 262K ~22 GB max native context
      echo.
      set /p ctx="Select (1-6): "

      if "%ctx%"=="1" set CTX=32768
      if "%ctx%"=="2" set CTX=65536
      if "%ctx%"=="3" set CTX=98304
      if "%ctx%"=="4" set CTX=131072
      if "%ctx%"=="5" set CTX=200704
      if "%ctx%"=="6" set CTX=262144

      if "%CTX%"=="" (
      echo Invalid selection
      pause
      exit /b 1
      )

      echo.
      echo Starting: %CTX% context
      echo http://127.0.0.1:8080
      echo.

      "%SCRIPT_DIR%llama-server.exe" ^
      -m "%MODEL%" ^
      -c %CTX% ^
      -fa on ^
      -ctk q4_0 ^
      -ctv q4_0 ^
      -t 8 ^
      -b 1024 ^
      --no-mmap ^
      --no-op-offload ^
      --host 127.0.0.1 ^
      --port 8080

      echo.
      pause

      1 条回复 最后回复
      0
      • S 在线
        S 在线
        sospda
        编写于 最后由 编辑
        #3

        用5700G的核显开16G显存都能跑一些小模型。
        哈哈

        W 1 条回复 最后回复
        0
        • kop wangK 离线
          kop wangK 离线
          kop wang
          编写于 最后由 kop wang 编辑
          #4

          我个人理解楼主这套有几个改进的方向。
          1、Q4量化用Q4_K_M的性价比相对K_S更高一些。
          2、再对模型吞吐性能要求不高的前提下,可以尝试以下qwen3.6-27B Q4_K_M。理论上讲,配合使用q8的kv量化,可以做到128K上下文。这样能力更好。
          3、对于性能参考,楼主可以以llamabench来测试下速度,主要是要综合prefill和decode两个性能一起参考。

          仅供参考。

          虚心交流,一起进步

          W 1 条回复 最后回复
          1
          • S sospda

            用5700G的核显开16G显存都能跑一些小模型。
            哈哈

            W 离线
            W 离线
            woaikuancheng0
            编写于 最后由 编辑
            #5

            @sospda 核显还是差点儿事儿,刚开始学习,以后多提宝贵意见

            1 条回复 最后回复
            0
            • kop wangK kop wang

              我个人理解楼主这套有几个改进的方向。
              1、Q4量化用Q4_K_M的性价比相对K_S更高一些。
              2、再对模型吞吐性能要求不高的前提下,可以尝试以下qwen3.6-27B Q4_K_M。理论上讲,配合使用q8的kv量化,可以做到128K上下文。这样能力更好。
              3、对于性能参考,楼主可以以llamabench来测试下速度,主要是要综合prefill和decode两个性能一起参考。

              仅供参考。

              W 离线
              W 离线
              woaikuancheng0
              编写于 最后由 编辑
              #6

              @kop-wang 嗯嗯,有时间我试试

              1 条回复 最后回复
              0
              • S 在线
                S 在线
                sospda
                编写于 最后由 编辑
                #7

                r9700 用Qwen3.6-35B-A3B-UD-Q6_K 没问题,速度还是很快, 96K上下文,速度还是不错。
                不搞严格推理,数学计算啥的,不需要全参数模型, A3B一般也够了。
                不过多尝试一下模型也没问题

                1 条回复 最后回复
                0

                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                有了你的建议,这篇帖子会更精彩哦 💗

                注册 登录
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                • 第一个帖子
                  最后一个帖子
                0
                • 版块
                • 最新
                • 标签
                • 热门
                • 用户
                • 群组