跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)

3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)

已定时 已固定 已锁定 已移动 LLM讨论区
19 帖子 10 发布者 283 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 在线
    S 在线
    stxpnet
    编写于 最后由 编辑
    #10

    晚些时间 我详细评测吧,感觉咱们论坛3090的卡友还挺多的,有没有 一个群组呢?

    C 1 条回复 最后回复
    0
    • S stxpnet

      晚些时间 我详细评测吧,感觉咱们论坛3090的卡友还挺多的,有没有 一个群组呢?

      C 离线
      C 离线
      c0aster
      编写于 最后由 编辑
      #11

      @stxpnet 我觉得可以整一个3090的交流,方便大家共享最最佳配置

      CS6C 1 条回复 最后回复
      1
      • C c0aster

        @stxpnet 我觉得可以整一个3090的交流,方便大家共享最最佳配置

        CS6C 在线
        CS6C 在线
        CS6
        编写于 最后由 编辑
        #12

        @c0aster 有需要!我剛買一張

        1 条回复 最后回复
        0
        • ran zR 离线
          ran zR 离线
          ran z
          编写于 最后由 编辑
          #13

          5090移动版也是24g,能抄作业吗?

          terryT 1 条回复 最后回复
          0
          • A 离线
            A 离线
            applejuice
            编写于 最后由 applejuice 编辑
            #14

            我用vllm 双卡没有NVLINK

            Prefill 4K 重复测量 (5 次)

            run prompt_tokens ttft tok/s
            1 3 836 2 776 ms 1 382
            2 3 836 2 735 ms 1 403
            3 3 834 2 665 ms 1 439
            4 3 833 2 770 ms 1 384
            5 3 838 2 772 ms 1 384

            Decode 单流 重复测量 (4 次)

            run prompt_tokens completion_tokens ttft decode tok/s
            1 76 220 256 ms 66.2
            2 79 220 278 ms 66.6
            3 81 220 284 ms 66.7
            4 80 220 284 ms 66.7
            1 条回复 最后回复
            0
            • ran zR ran z

              5090移动版也是24g,能抄作业吗?

              terryT 在线
              terryT 在线
              terry
              超级版主
              编写于 最后由 编辑
              #15

              @ran-z 5090移动版也快很多,有啥不能抄的?

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              0
              • C c0aster

                我直接用的3090club的 ik_llama + IQ4_KS + MTP,对比你自行编译的BoFan的分支,是哪个强?

                毅袁毅 在线
                毅袁毅 在线
                毅袁
                编写于 最后由 编辑
                #16

                @c0aster 感谢分享,已经按照ik-llama实施,实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了

                C 1 条回复 最后回复
                0
                • 毅袁毅 毅袁

                  @c0aster 感谢分享,已经按照ik-llama实施,实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了

                  C 离线
                  C 离线
                  c0aster
                  编写于 最后由 编辑
                  #17

                  @毅袁 你不是用的3090clud的脚本是吧,我用3090club的脚本只有40多,你咋能跑69,分享下具体的呗

                  毅袁毅 1 条回复 最后回复
                  0
                  • terryT terry 取消固定了该主题
                  • 5 在线
                    5 在线
                    5ccccc
                    编写于 最后由 编辑
                    #18

                    我今天用7900xtx跑一个本地任务的时候也oom了,参考的论坛内的一个设置

                    1 条回复 最后回复
                    0
                    • C c0aster

                      @毅袁 你不是用的3090clud的脚本是吧,我用3090club的脚本只有40多,你咋能跑69,分享下具体的呗

                      毅袁毅 在线
                      毅袁毅 在线
                      毅袁
                      编写于 最后由 编辑
                      #19

                      @c0aster https://github.com/ikawrakow/ik_llama.cpp 从这个项目自己编译的ik_llama,启动参数如下:
                      start "ik_llama - heretic-v2 27B" "%EXE%" ^
                      -m "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf" ^
                      --mmproj "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf" ^
                      -ngl 99 -c 131072 --threads 12 --no-mmap ^
                      --flash-attn on ^
                      --cache-type-k q4_0 --cache-type-v q4_0 ^
                      --batch-size 512 --ubatch-size 256 ^
                      --merge-qkv --merge-up-gate-experts ^
                      --cache-ram 32768 ^
                      --spec-type mtp:n_max=4,p_min=0.0 ^
                      --jinja --chat-template-file "%TEMPLATE%" ^
                      --timeout 3600 --host 0.0.0.0 --port 8080

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组