跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 求教,为什么我的3090跑Qwen3.6 27B,没有丝滑感,搭配codex编程只有不到30tokey/s

求教,为什么我的3090跑Qwen3.6 27B,没有丝滑感,搭配codex编程只有不到30tokey/s

已定时 已固定 已锁定 已移动 LLM讨论区
18 帖子 8 发布者 232 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 毅袁毅 离线
    毅袁毅 离线
    毅袁
    编写于 最后由 terry 编辑
    #1

    看着兄弟的3090 生产力 丝滑起飞,我的在地上爬,心中满是羡慕,求大佬指点!


    先介绍环境:
    CPU 5700X
    GPU 3090 24G
    内存64G
    win10系统


    本地模型相关


    model:Qwen3.6-27B-NEO-CODE-HERE-2T-OT-Q4_K_M.gguf


    @echo off
    chcp 65001 >nul
    title Qwen3.6-27B-UD RTX3090 Optimized Launcher

    :: ================= 配置区 =================
    :: 请将下方路径修改为你电脑上实际的模型文件路径
    set MODEL_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf

    :: 如果你有对应的多模态视觉文件(mmproj),可以在下方取消注释并填写路径;没有则保持注释
    set MMPROJ_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf
    :: ==========================================

    echo ========================================
    echo Qwen3.6-27B-UD RTX 3090 启动中...
    echo ========================================

    :: 启动 llama.cpp (假设 llama-server.exe 或 main.exe 在当前目录下,如果不在请写绝对路径)
    .\llama-server.exe ^
    --model "%MODEL_PATH%" ^
    -ngl 99 ^
    -c 131072 ^
    -n 8192 ^
    -fa on^
    --port 8080 ^
    --host 0.0.0.0 ^
    --image-min-tokens 1024 ^
    --batch-size 512 ^
    --ubatch-size 256 ^
    --spec-type draft-mtp ^
    --spec-draft-n-max 2
    --cache-type-k q4_0 ^
    --cache-type-v q4_0 ^
    --jinja --chat-template-file chat_template.jinja ^
    --timeout 3600 ^
    --jinja ^
    --temp 0.6 ^
    --top-p 0.95 ^
    --top-k 20 ^
    --min-p 0.05 ^
    --repeat-penalty 1.05


    终端测是codex桌面版


    使用codex编制一个小程序,实际速率如截图
    4a3ee1f6-3478-4846-b623-bcd01eee268b-image.jpeg
    d0c642bc-2195-40b7-8b5e-eab9c3c817fc-image.jpeg
    8ce4138b-0978-4934-bf52-fce5b2ff78b3-image.jpeg

    J 1 条回复 最后回复
    0
    • terryT 在线
      terryT 在线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      下次发帖检查下格式,发给AI整理成Markdown格式,不然字体粗大,不好阅读,也会影响其他人为你解答的热情。

      油管:https://www.youtube.com/@抡锤者

      毅袁毅 1 条回复 最后回复
      0
      • terryT terry

        下次发帖检查下格式,发给AI整理成Markdown格式,不然字体粗大,不好阅读,也会影响其他人为你解答的热情。

        毅袁毅 离线
        毅袁毅 离线
        毅袁
        编写于 最后由 编辑
        #3

        @terry 收到,下次一定注意。感谢老大帮忙斧正。

        1 条回复 最后回复
        0
        • 毅袁毅 离线
          毅袁毅 离线
          毅袁
          编写于 最后由 编辑
          #4

          不好意思,一着急,启动参数贴错了
          @echo off
          chcp 65001 >nul
          title Qwen3.6-27B-UD RTX3090 Optimized Launcher

          :: ================= 配置区 =================
          :: 请将下方路径修改为你电脑上实际的模型文件路径
          set MODEL_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\2\Qwen3.6-27B-NEO-CODE-HERE-2T-OT-Q4_K_M.gguf

          :: 如果你有对应的多模态视觉文件(mmproj),可以在下方取消注释并填写路径;没有则保持注释
          set MMPROJ_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\2\mmproj-F16.gguf
          :: ==========================================

          echo ========================================
          echo Qwen3.6-27B-UD RTX 3090 启动中...
          echo ==========================================

          :: 启动 llama.cpp (假设 llama-server.exe 或 main.exe 在当前目录下,如果不在请写绝对路径)
          .\llama-server.exe ^
          --model "%MODEL_PATH%" ^
          --ctx-size 131072 ^
          --gpu-layers 99 ^
          --parallel 1 ^
          --temp 0.8 ^
          --top-p 0.95 ^
          --top-k 20 ^
          --cache-type-k q4_0 ^
          --cache-type-v q4_0 ^
          --flash-attn on ^
          --timeout 3600 ^
          --repeat-penalty 1.2 ^
          --jinja --chat-template-file chat_template.jinja ^
          --port 8080 ^
          --host 0.0.0.0

          pause

          1 条回复 最后回复
          0
          • XiaoteX 离线
            XiaoteX 离线
            Xiaote
            编写于 最后由 编辑
            #5

            @毅袁 看了你的启动参数,问题出在 context size 上。你用 --ctx-size 131072(128K)跑 Qwen3.6 27B Q4_K_M,这个搭配在 24GB 的 3090 上是跑不动的:

            • 模型本身(27B Q4_K_M)≈ 17-18GB
            • 128K context 的 KV cache(Q4_0量化)≈ 7-8GB
            • 合计 ~25-26GB,超过 24GB 显存

            超出的部分会回落到系统内存,速度会掉到个位数 tok/s,这就是你感觉不丝滑的原因。

            建议试试:

            1. 先降 context size 到 --ctx-size 32768(32K),对 Codex 编程来说完全够用了
            2. 如果还想保留 128K,考虑换成 Q3_K_M 或者 IQ4_NL 量化,模型体积能再省 2-3GB
            3. 或者换 14B/15B 的模型(比如 Qwen3.6 15B Q4_K_M),在 3090 上跑 128K 毫无压力

            贴一下我的 3090 推荐启动参数:

            --ctx-size 32768 -ngl 99 --flash-attn on
            --cache-type-k q4_0 --cache-type-v q4_0
            --batch-size 512 --ubatch-size 256
            

            这个配置下 27B Q4_K_M 可以全在显存里,编程助手体验很流畅。

            毅袁毅 2 条回复 最后回复
            0
            • XiaoteX Xiaote

              @毅袁 看了你的启动参数,问题出在 context size 上。你用 --ctx-size 131072(128K)跑 Qwen3.6 27B Q4_K_M,这个搭配在 24GB 的 3090 上是跑不动的:

              • 模型本身(27B Q4_K_M)≈ 17-18GB
              • 128K context 的 KV cache(Q4_0量化)≈ 7-8GB
              • 合计 ~25-26GB,超过 24GB 显存

              超出的部分会回落到系统内存,速度会掉到个位数 tok/s,这就是你感觉不丝滑的原因。

              建议试试:

              1. 先降 context size 到 --ctx-size 32768(32K),对 Codex 编程来说完全够用了
              2. 如果还想保留 128K,考虑换成 Q3_K_M 或者 IQ4_NL 量化,模型体积能再省 2-3GB
              3. 或者换 14B/15B 的模型(比如 Qwen3.6 15B Q4_K_M),在 3090 上跑 128K 毫无压力

              贴一下我的 3090 推荐启动参数:

              --ctx-size 32768 -ngl 99 --flash-attn on
              --cache-type-k q4_0 --cache-type-v q4_0
              --batch-size 512 --ubatch-size 256
              

              这个配置下 27B Q4_K_M 可以全在显存里,编程助手体验很流畅。

              毅袁毅 离线
              毅袁毅 离线
              毅袁
              编写于 最后由 编辑
              #6

              @Xiaote 好,我马上试一下

              1 条回复 最后回复
              0
              • 毅袁毅 离线
                毅袁毅 离线
                毅袁
                编写于 最后由 编辑
                #7

                我使用128K时,看gpu内存好像还挺稳定的,以为显存没有压力呢
                1ebb9ffd-fbcb-4bcb-8307-d054c3eaeb24-image.jpeg

                S 1 条回复 最后回复
                0
                • XiaoteX Xiaote

                  @毅袁 看了你的启动参数,问题出在 context size 上。你用 --ctx-size 131072(128K)跑 Qwen3.6 27B Q4_K_M,这个搭配在 24GB 的 3090 上是跑不动的:

                  • 模型本身(27B Q4_K_M)≈ 17-18GB
                  • 128K context 的 KV cache(Q4_0量化)≈ 7-8GB
                  • 合计 ~25-26GB,超过 24GB 显存

                  超出的部分会回落到系统内存,速度会掉到个位数 tok/s,这就是你感觉不丝滑的原因。

                  建议试试:

                  1. 先降 context size 到 --ctx-size 32768(32K),对 Codex 编程来说完全够用了
                  2. 如果还想保留 128K,考虑换成 Q3_K_M 或者 IQ4_NL 量化,模型体积能再省 2-3GB
                  3. 或者换 14B/15B 的模型(比如 Qwen3.6 15B Q4_K_M),在 3090 上跑 128K 毫无压力

                  贴一下我的 3090 推荐启动参数:

                  --ctx-size 32768 -ngl 99 --flash-attn on
                  --cache-type-k q4_0 --cache-type-v q4_0
                  --batch-size 512 --ubatch-size 256
                  

                  这个配置下 27B Q4_K_M 可以全在显存里,编程助手体验很流畅。

                  毅袁毅 离线
                  毅袁毅 离线
                  毅袁
                  编写于 最后由 编辑
                  #8

                  @Xiaote 提升到31 T/s左右了,还有提升潜力吗?
                  b384ebcd-f2d4-43eb-8759-6c1ee620c400-image.jpeg

                  1 条回复 最后回复
                  0
                  • 毅袁毅 毅袁

                    看着兄弟的3090 生产力 丝滑起飞,我的在地上爬,心中满是羡慕,求大佬指点!


                    先介绍环境:
                    CPU 5700X
                    GPU 3090 24G
                    内存64G
                    win10系统


                    本地模型相关


                    model:Qwen3.6-27B-NEO-CODE-HERE-2T-OT-Q4_K_M.gguf


                    @echo off
                    chcp 65001 >nul
                    title Qwen3.6-27B-UD RTX3090 Optimized Launcher

                    :: ================= 配置区 =================
                    :: 请将下方路径修改为你电脑上实际的模型文件路径
                    set MODEL_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf

                    :: 如果你有对应的多模态视觉文件(mmproj),可以在下方取消注释并填写路径;没有则保持注释
                    set MMPROJ_PATH=J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf
                    :: ==========================================

                    echo ========================================
                    echo Qwen3.6-27B-UD RTX 3090 启动中...
                    echo ========================================

                    :: 启动 llama.cpp (假设 llama-server.exe 或 main.exe 在当前目录下,如果不在请写绝对路径)
                    .\llama-server.exe ^
                    --model "%MODEL_PATH%" ^
                    -ngl 99 ^
                    -c 131072 ^
                    -n 8192 ^
                    -fa on^
                    --port 8080 ^
                    --host 0.0.0.0 ^
                    --image-min-tokens 1024 ^
                    --batch-size 512 ^
                    --ubatch-size 256 ^
                    --spec-type draft-mtp ^
                    --spec-draft-n-max 2
                    --cache-type-k q4_0 ^
                    --cache-type-v q4_0 ^
                    --jinja --chat-template-file chat_template.jinja ^
                    --timeout 3600 ^
                    --jinja ^
                    --temp 0.6 ^
                    --top-p 0.95 ^
                    --top-k 20 ^
                    --min-p 0.05 ^
                    --repeat-penalty 1.05


                    终端测是codex桌面版


                    使用codex编制一个小程序,实际速率如截图
                    4a3ee1f6-3478-4846-b623-bcd01eee268b-image.jpeg
                    d0c642bc-2195-40b7-8b5e-eab9c3c817fc-image.jpeg
                    8ce4138b-0978-4934-bf52-fce5b2ff78b3-image.jpeg

                    J 离线
                    J 离线
                    johnnybegood
                    编写于 最后由 编辑
                    #9

                    @毅袁 看我的帖子了解一下速度: https://lcz.me/topic/273/经验分享-求助-双卡-3090-3070-混插-windows-vs-ubuntu-跑-qwen-ltx-video-性能实测/16

                    1 条回复 最后回复
                    0
                    • XiaoteX 离线
                      XiaoteX 离线
                      Xiaote
                      编写于 最后由 编辑
                      #10

                      @毅袁 31 T/s 已经很不错了,从之前个位数翻上来了!还有几个优化空间可以再提一提:

                      1. Flash Attention(--flash-attn):这是最有效的优化之一,对于 Qwen3.6 27B 在 3090 上可以再提升 5-10% 的生成速度。加上后 KV cache 占用也会小一些。

                      2. KV cache 量化(-ctk q8_0 -ctv q8_0):如果你不需要超高精度,把 key/value cache 降到 q8_0 可以节省约 2GB 显存,给 context 留更多空间。

                      3. 线程数(-t):5700X 是 8C16T,可以试 --threads 8 或 --threads 12,不需要全给 16,有时候线程太多反而有调度开销。

                      4. 如果还想进一步压低显存:试试 Q4_K_S 甚至 IQ4_XS 量化。27B Q4_K_S ≈ 16GB,比 Q4_K_M 省 1-2GB,速度还能快一丁点,质量差异基本看不出。

                      5. --no-mmap:如果内存紧张,开这个让模型完全常驻显存,避免 CPU-GPU 反复换页。

                      总结:最推荐的组合是先加 --flash-attn,然后把 kv cache 量化到 q8_0,应该能到 35 T/s+,同时在 24G 显存里跑 32K context 压力更小。

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        stxpnet
                        编写于 最后由 编辑
                        #11

                        要用带MTP的,参数也要开启MTP草稿,温度适当调低,编程可以到60T/S左右。我的也是3090 24G,Q4的模型和KV CACHE对智商和精度都有伤害,但是没有办法,REDDIT上有大神测过,他说写代码最好的是UNSLOTH的UD4 那个模型。 大概200K上下文吧。我是按 github.com/noonghunna/club-3090 这个大神的菜谱直接弄的。 一般简单的代码要改2-3遍才可以到基本能用的地步。 我目前在转投QWEN 35B A3B了。 我想使用QWEN 35B A3B Q6的试试。 千问这些模型 好是好,但是我总觉得体积大都用在文学上面了。问它名著它倒背如流,结果编程就弱了。。。 唉。

                        5 1 条回复 最后回复
                        0
                        • S stxpnet

                          要用带MTP的,参数也要开启MTP草稿,温度适当调低,编程可以到60T/S左右。我的也是3090 24G,Q4的模型和KV CACHE对智商和精度都有伤害,但是没有办法,REDDIT上有大神测过,他说写代码最好的是UNSLOTH的UD4 那个模型。 大概200K上下文吧。我是按 github.com/noonghunna/club-3090 这个大神的菜谱直接弄的。 一般简单的代码要改2-3遍才可以到基本能用的地步。 我目前在转投QWEN 35B A3B了。 我想使用QWEN 35B A3B Q6的试试。 千问这些模型 好是好,但是我总觉得体积大都用在文学上面了。问它名著它倒背如流,结果编程就弱了。。。 唉。

                          5 离线
                          5 离线
                          566656661
                          编写于 最后由 编辑
                          #12

                          @stxpnet

                          Qwen3.6 35BA3B不適合拿來編程, 只能拿來日常對話跟RAG的

                          3B的Activation還是比不過27B的dense模型啊

                          J 1 条回复 最后回复
                          1
                          • 5 566656661

                            @stxpnet

                            Qwen3.6 35BA3B不適合拿來編程, 只能拿來日常對話跟RAG的

                            3B的Activation還是比不過27B的dense模型啊

                            J 离线
                            J 离线
                            John8686
                            编写于 最后由 编辑
                            #13

                            @566656661 实测35BA3B不弱,安排他写打砖块游戏,一次就通,表现比27b还要好,27b需要debug之后才通。

                            5 1 条回复 最后回复
                            1
                            • J John8686

                              @566656661 实测35BA3B不弱,安排他写打砖块游戏,一次就通,表现比27b还要好,27b需要debug之后才通。

                              5 离线
                              5 离线
                              566656661
                              编写于 最后由 566656661 编辑
                              #14

                              @John8686

                              可是一論編程實戰, 35BA3B在大約60到80K長度就會開始很容易偏離計畫跟出幻覺, 27B至少還能跟著繼續下去跑到120K左右, 個人覺得能到150K才會出現注意力潰散

                              注意這只是我自己習慣的模型上下文長度, 我個人用模型習慣只會用到總長度的一半

                              不過日常Agent應該也不會跑到這麼長就是了, 編程等專業用途的話就算是家常便飯吧

                              1 条回复 最后回复
                              1
                              • 毅袁毅 毅袁

                                我使用128K时,看gpu内存好像还挺稳定的,以为显存没有压力呢
                                1ebb9ffd-fbcb-4bcb-8307-d054c3eaeb24-image.jpeg

                                S 离线
                                S 离线
                                stxpnet
                                编写于 最后由 编辑
                                #15

                                @毅袁 对了,两个点,1. 你的功率设置可能有点高,注意安全,我的卡也是最大390W,但我现在都是习惯开机后使用 sudo nvidia-smi -pl 320 将最大功率限制在320瓦,并且我在UBUNTU内安装了风扇调节软件,空载的时候就是60%左右的风速,风扇坏了大不了换,核芯烧了就麻烦了。 2.温度可能过高我满载推理的时候也不会超过65度。 你的都75度。 根据 我的经验,NV的卡,在接近80的时候,推理速度会暴降,因为核心为了保存自身,会将计算频率或显存频率都压到最低。 好多地方都提到温度长期高于 80可能对核心造成物理损害。

                                5 毅袁毅 2 条回复 最后回复
                                0
                                • S stxpnet

                                  @毅袁 对了,两个点,1. 你的功率设置可能有点高,注意安全,我的卡也是最大390W,但我现在都是习惯开机后使用 sudo nvidia-smi -pl 320 将最大功率限制在320瓦,并且我在UBUNTU内安装了风扇调节软件,空载的时候就是60%左右的风速,风扇坏了大不了换,核芯烧了就麻烦了。 2.温度可能过高我满载推理的时候也不会超过65度。 你的都75度。 根据 我的经验,NV的卡,在接近80的时候,推理速度会暴降,因为核心为了保存自身,会将计算频率或显存频率都压到最低。 好多地方都提到温度长期高于 80可能对核心造成物理损害。

                                  5 离线
                                  5 离线
                                  566656661
                                  编写于 最后由 编辑
                                  #16

                                  @stxpnet

                                  你可以進取點限制到250w

                                  Reddit上很多人都是250w, 大約有原功耗92%的效能

                                  原文

                                  so i actually benchmarked it. qwen 27B q5_k_n via llama.cpp, same prompt 10x at each PL setting, took the median. got this:
                                  
                                  350W stock: 38.4 t/s
                                  300W: 37.1 t/s
                                  280W: 36.2 t/s
                                  250W: 35.4 t/s
                                  220W: 32.8 t/s
                                  

                                  真正開始出現斷崖下跌只有在220w之後

                                  原文連結

                                  A 1 条回复 最后回复
                                  0
                                  • 5 566656661

                                    @stxpnet

                                    你可以進取點限制到250w

                                    Reddit上很多人都是250w, 大約有原功耗92%的效能

                                    原文

                                    so i actually benchmarked it. qwen 27B q5_k_n via llama.cpp, same prompt 10x at each PL setting, took the median. got this:
                                    
                                    350W stock: 38.4 t/s
                                    300W: 37.1 t/s
                                    280W: 36.2 t/s
                                    250W: 35.4 t/s
                                    220W: 32.8 t/s
                                    

                                    真正開始出現斷崖下跌只有在220w之後

                                    原文連結

                                    A 在线
                                    A 在线
                                    applejuice
                                    编写于 最后由 编辑
                                    #17

                                    @566656661 说:

                                    @stxpnet

                                    你可以進取點限制到250w

                                    Reddit上很多人都是250w, 大約有原功耗92%的效能

                                    原文

                                    so i actually benchmarked it. qwen 27B q5_k_n via llama.cpp, same prompt 10x at each PL setting, took the median. got this:
                                    
                                    350W stock: 38.4 t/s
                                    300W: 37.1 t/s
                                    280W: 36.2 t/s
                                    250W: 35.4 t/s
                                    220W: 32.8 t/s
                                    

                                    真正開始出現斷崖下跌只有在220w之後

                                    原文連結

                                    我限制了230-240 因为240 可以压在70度上下

                                    1 条回复 最后回复
                                    0
                                    • S stxpnet

                                      @毅袁 对了,两个点,1. 你的功率设置可能有点高,注意安全,我的卡也是最大390W,但我现在都是习惯开机后使用 sudo nvidia-smi -pl 320 将最大功率限制在320瓦,并且我在UBUNTU内安装了风扇调节软件,空载的时候就是60%左右的风速,风扇坏了大不了换,核芯烧了就麻烦了。 2.温度可能过高我满载推理的时候也不会超过65度。 你的都75度。 根据 我的经验,NV的卡,在接近80的时候,推理速度会暴降,因为核心为了保存自身,会将计算频率或显存频率都压到最低。 好多地方都提到温度长期高于 80可能对核心造成物理损害。

                                      毅袁毅 离线
                                      毅袁毅 离线
                                      毅袁
                                      编写于 最后由 编辑
                                      #18

                                      @stxpnet 感谢提醒。马上设置

                                      1 条回复 最后回复
                                      0

                                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                      有了你的建议,这篇帖子会更精彩哦 💗

                                      注册 登录
                                      回复
                                      • 在新帖中回复
                                      登录后回复
                                      • 从旧到新
                                      • 从新到旧
                                      • 最多赞同


                                      • 登录

                                      • 没有帐号? 注册

                                      • 登录或注册以进行搜索。
                                      • 第一个帖子
                                        最后一个帖子
                                      0
                                      • 版块
                                      • 最新
                                      • 标签
                                      • 热门
                                      • 用户
                                      • 群组