跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

S

simo9052

@simo9052
关于
帖子
1
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    S simo9052

    我基本上是按照这个视频中的方法操作的:
    https://www.youtube.com/watch?v=8F_5pdcD3HY
    我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

    我目前的配置:

    GPU: RTX 3080 20GB

    RAM: 15 GB

    CPU: i3-10100F

    llama.cpp: turboquant 编译版本
    https://github.com/TheTom/llama-cpp-turboquant

    模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

    多模态组件 (mmproj): mmproj-F16.gguf

    上下文 (Context): 256k

    n-cpu-moe: 15

    cache-type-k: turbo4

    cache-type-v: turbo3

    flash-attn: 开启

    目前的结果:

    在 256k 上下文下运行稳定

    速度大约为 45 tok/s

    模型加载时间约为 5 分钟

    运行添加 mmproj 后,视觉功能也能正常工作
    beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

    运行脚本:
    #!/usr/bin/env bash
    set -euo pipefail

    MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
    SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
    HOST="0.0.0.0"
    PORT="9999"
    CTX="262144"
    THREADS="6"
    THREADS_BATCH="6"
    BATCH="256"
    UBATCH="128"
    GPU_LAYERS="99"
    CPU_MOE="20"
    PARALLEL="2"
    CACHE_K="turbo4"
    CACHE_V="turbo3"
    MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
    REASONING_MODE="${REASONING_MODE:-off}"

    exec "$SERVER"
    --model "$MODEL"
    --host "$HOST"
    --port "$PORT"
    -ngl "$GPU_LAYERS"
    --n-cpu-moe "$CPU_MOE"
    -c "$CTX"
    -t "$THREADS"
    -tb "$THREADS_BATCH"
    -b "$BATCH"
    -ub "$UBATCH"
    -np "$PARALLEL"
    --cache-type-k "$CACHE_K"
    --cache-type-v "$CACHE_V"
    --mmproj "$MMPROJ"
    --flash-attn on
    --no-warmup
    --jinja
    --reasoning "$REASONING_MODE"

    我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组