跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

F

fanwen1974

@fanwen1974
关于
帖子
5
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.
    F fanwen1974

    這個不要死磕,個人認爲最要死磕的是 Qwen-3.6 27B稠密模型 ,因爲。。。。。智力才夠。。我主要用在編程,Qwen-3.6 35BA3B專家混合模型,感覺編程有點弱。當然只是一般使用還行吧。

    LLM讨论区

  • Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)
    F fanwen1974

    樓主的ROCM Build 方法有點錯,官方Blog 上的,轉貼如下:

    1. Build PR #119 for gfx1151

    git clone https://github.com/Luce-Org/lucebox-hub.git
    cd lucebox-hub
    git fetch origin pull/119/head:pr119 && git checkout pr119
    git submodule update --init --recursive
    cd dflash
    cmake -B build -S .
    -DCMAKE_BUILD_TYPE=Release
    -DDFLASH27B_GPU_BACKEND=hip
    -DDFLASH27B_HIP_ARCHITECTURES=gfx1151
    -DDFLASH27B_HIP_SM80_EQUIV=ON
    cmake --build build --target test_dflash -j

    2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

    mkdir -p models/draft
    hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/
    hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir models/draft/

    3. Bench (DFlash decode + PFlash long-context prefill)

    LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
    DFLASH_BIN=$PWD/build/test_dflash
    DFLASH_TARGET=$PWD/models/Qwen3.6-27B-Q4_K_M.gguf
    DFLASH_DRAFT=$PWD/models/draft/dflash-draft-3.6-q8_0.gguf
    DFLASH27B_DRAFT_SWA=2048
    DFLASH27B_PREFILL_UBATCH=512
    python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 22

    gx1151 那個你要看你是張顯卡去改。

    gfx1100 7900 XTX
    gfx1151 Strix Halo iGPU
    gfx1201 R9700

    然後 budget 那個 7900 選 8 , AMD Strix Halo (AI MAX 395+) ,R9700 選 22 。
    我試了下 R9700 能55-63 t/s

    run.sh

    #!/bin/sh
    python scripts/server.py
    --target models/Qwen3.6-27B-Q4_K_M.gguf
    --draft models/draft/dflash-draft-3.6-q8_0.gguf
    --cache-type-k q8_0 --cache-type-v q8_0
    --max-ctx 8704
    --fa-window 2048
    --budget 22
    --host 0.0.0.0 --port 1234

    4f238f6f-443f-4cb4-a425-2ff5a37fbf7e-image.jpeg

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组