跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

殷玉达殷

殷玉达

@殷玉达
关于
帖子
5
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    殷玉达殷 殷玉达

    这两参数你调大一点
    BATCH="512"
    UBATCH="256"
    ctx 128K或者64K
    K V的压缩尽量统一参数 turbo3 就可以
    20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错

    LLM讨论区

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    殷玉达殷 殷玉达

    殷玉达 说:

    参数信息
    Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
    ctx=192K
    ngl=99
    并发=2
    GPU=3080+3060
    TS=70,30
    K=turbo3
    V=turbo3
    dK=turbo3
    dV=turbo3
    MTP=2
    b=1024
    ub=512
    FA=on
    t=8
    temp=0.7

    官方turboquant还没合并分支,我自己合并的,测试了几天基本没什么bug,你可以试试,早上刚合并9222也正常

    LLM讨论区

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    殷玉达殷 殷玉达

    参数信息
    Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
    ctx=192K
    ngl=99
    并发=2
    GPU=3080+3060
    TS=70,30
    K=turbo3
    V=turbo3
    dK=turbo3
    dV=turbo3
    MTP=2
    b=1024
    ub=512
    FA=on
    t=8
    temp=0.7

    LLM讨论区

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    殷玉达殷 殷玉达

    9548c98e-99da-497e-897c-38d79e660882-image.jpeg
    我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右

    LLM讨论区

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    殷玉达殷 殷玉达

    按3080的理论速度是可以到100以上啊

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组