跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 另类16GB+12GB配置

另类16GB+12GB配置

已定时 已固定 已锁定 已移动 LLM讨论区
6 帖子 4 发布者 191 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stakira
    编写于 最后由 stakira 编辑
    #1

    本帖适合原本就有 16GB 显卡的朋友低成本尝试。

    • 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
    • 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
    • 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
    • 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。

    总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。

    具体设置为:

    使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够

    models.ini

    [unsloth/qwen3.6-27b]
    model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf
    mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf
    no-mmproj-offload = true
    no-mmap = true
    mlock = false
    cache-type-k = q8_0
    cache-type-v = q8_0
    reasoning = on
    dev = Vulkan1,Vulkan2
    n-gpu-layers = 999
    t = 0
    split-mode = layer
    tensor-split = 66,34
    kv-unified = true
    c = 160000
    np = 1
    ; Thinking mode for precise coding tasks
    temperature = 0.6
    top-k = 20
    top-p = 0.95
    min-p = 0.0
    repeat-penalty = 1.0
    presence-penalty = 0.0
    
    llama-server.exe \
        --models-preset ./models.ini \
        --host 0.0.0.0 \
        --models-max 1 \
        --port 1235
    

    dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
    另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的

    edit: 感觉可能发错区了,抱歉

    terryT 1 条回复 最后回复
    1
    • S stakira

      本帖适合原本就有 16GB 显卡的朋友低成本尝试。

      • 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
      • 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
      • 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
      • 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。

      总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。

      具体设置为:

      使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够

      models.ini

      [unsloth/qwen3.6-27b]
      model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf
      mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf
      no-mmproj-offload = true
      no-mmap = true
      mlock = false
      cache-type-k = q8_0
      cache-type-v = q8_0
      reasoning = on
      dev = Vulkan1,Vulkan2
      n-gpu-layers = 999
      t = 0
      split-mode = layer
      tensor-split = 66,34
      kv-unified = true
      c = 160000
      np = 1
      ; Thinking mode for precise coding tasks
      temperature = 0.6
      top-k = 20
      top-p = 0.95
      min-p = 0.0
      repeat-penalty = 1.0
      presence-penalty = 0.0
      
      llama-server.exe \
          --models-preset ./models.ini \
          --host 0.0.0.0 \
          --models-max 1 \
          --port 1235
      

      dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
      另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的

      edit: 感觉可能发错区了,抱歉

      terryT 在线
      terryT 在线
      terry
      编写于 最后由 编辑
      #2

      @stakira 厉害!我也正想折腾下这个玩意,你做的很有意义啊,兄弟,这为我提供了一个素材,我可以测试下A卡和N卡一起分层跑Vulkan😂。说到分层,你说的对,如果主力卡算力足够,只是显存不够,用一张副卡来offload绝对比降级到CPU内存划算得多,这是个很好的思路。感谢分享,好贴!

      1 条回复 最后回复
      1
      • CHIA AN YANGC 离线
        CHIA AN YANGC 离线
        CHIA AN YANG
        编写于 最后由 编辑
        #3

        我之前搞rtx3060 12g x3 搞不出來,,後來換7900XTX 24G 體驗好多了

        terryT 1 条回复 最后回复
        0
        • CHIA AN YANGC CHIA AN YANG

          我之前搞rtx3060 12g x3 搞不出來,,後來換7900XTX 24G 體驗好多了

          terryT 在线
          terryT 在线
          terry
          编写于 最后由 编辑
          #4

          @CHIA-AN-YANG 换卡是对的,它这5070Ti的算力很强了,被3060拖累了。这卡又贵,效果还不如单卡3090.

          1 条回复 最后回复
          0
          • tomcatzhT 离线
            tomcatzhT 离线
            tomcatzh
            编写于 最后由 编辑
            #5

            prefill速度呢?如果用来跑agent 30-40K,甚至70k - 100k的prefill都是很常见的

            虽然cache命中就无所谓,但总有冷启动的时候

            S 1 条回复 最后回复
            0
            • tomcatzhT tomcatzh

              prefill速度呢?如果用来跑agent 30-40K,甚至70k - 100k的prefill都是很常见的

              虽然cache命中就无所谓,但总有冷启动的时候

              S 离线
              S 离线
              stakira
              编写于 最后由 编辑
              #6

              @tomcatzh 1000上下

              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 登录或注册以进行搜索。
              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组