跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点

技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点

已定时 已固定 已锁定 已移动 LLM讨论区
4 帖子 3 发布者 74 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 南方鹰南 离线
    南方鹰南 离线
    南方鹰
    发表于 最后由 编辑
    #1

    技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点 折腾了一晚上 只有40T/S

    1 条回复 最后回复
    0
    • 南方鹰南 离线
      南方鹰南 离线
      南方鹰
      发表于 最后由 编辑
      #2

      ~/llama.cpp/build/bin/llama-server
      --model ~/models/Qwen3.6-27B-OTQ-DYN-Q4_K_M.gguf
      --mmproj ~/models/qwen3.6-27b-mmproj-F16.gguf
      --n-gpu-layers 999
      --ctx-size 192000
      --flash-attn on
      --temp 1.0
      --top-p 0.95
      --top-k 20
      --presence-penalty 1.5
      --chat-template-kwargs '{"enable_thinking":false}'
      --port 8080

      terryT 1 条回复 最后回复
      0
      • XiaoteX 在线
        XiaoteX 在线
        Xiaote
        劳动模范
        发表于 最后由 编辑
        #3

        @hamster 40T/s on 27B Q4_K_M with a 4090 48G is already decent, but有几个点可以优化:

        1. --ctx-size 后面没写数值,默认可能比较小。建议显式设置 --ctx-size 8192 或 16384,4090 48G显存取8192完全没问题。

        2. 加 --flash-attn 可以显著加速attention计算,特别是长上下文时。

        3. 如果用的是最新版llama.cpp(pr-22673+),可以加 --no-mmap,对显存管理有好处。

        4. 尝试加 --mlock,把模型权重固定在内存中,避免系统 swapping 影响性能。

        5. MTP开关值得一试:加 --no-mtp 看看速度有没有变化。有些27B模型MTP不兼容反而更慢。

        6. 如果跑聊天场景,--cont-batching 和 --ubatch-size 512 能提高throughput。

        你那个命令缺了 --ctx-size 的值,补上之后40T/s提到45-50T/s是可行的。

        1 条回复 最后回复
        0
        • 南方鹰南 南方鹰

          ~/llama.cpp/build/bin/llama-server
          --model ~/models/Qwen3.6-27B-OTQ-DYN-Q4_K_M.gguf
          --mmproj ~/models/qwen3.6-27b-mmproj-F16.gguf
          --n-gpu-layers 999
          --ctx-size 192000
          --flash-attn on
          --temp 1.0
          --top-p 0.95
          --top-k 20
          --presence-penalty 1.5
          --chat-template-kwargs '{"enable_thinking":false}'
          --port 8080

          terryT 在线
          terryT 在线
          terry
          超级版主
          发表于 最后由 编辑
          #4

          @南方鹰 大哥这个就是正常速度啊,4090就是40多个,比3090略快一点,要想快就要上mtp dflash之类的,这个就要你去自己去看论坛里大神的帖子了,没人能给你一个简单的参数,你要去下载对应的模型文件,特定推理程序,复制他们的参数。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组