跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

A

airbrush

@airbrush
关于
帖子
5
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 5090用vllm搭qwen3.6 27b好像很麻烦。跑了几次都跑不起来。
    A airbrush

    我也是折腾了好几天 在windows环境下 wsl + vLLM 一直搞不定 vllm 编译 总是失败!不知道什么问题。 目前环境是这样的。
    Windows 11 Pro (Build 26200)
    ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
    └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
    ├── llama.cpp v9294 (CUDA 后端)
    │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
    │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
    ├── Hermes Agent v0.14.0 (Python 3.11.15)

    如果后续搞定了 给分析下哦

    LLM讨论区

  • 京东自营上了5090、6000pro,应该怎么选。
    A airbrush

    @Trypt-Wang 5090 32G卡 开不到256k上下文吧,如果搞定了 给分析哦 ~!👍 😊

    AI硬件

  • 京东自营上了5090、6000pro,应该怎么选。
    A airbrush

    @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

    apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

    小白 还不太懂😢

    AI硬件

  • 选项A:1张RTX 5090或者选项B:2张AI PRO R9700?
    A airbrush

    @Liang-Wang 5090的性能情况供参考

    Windows 11 Pro (Build 26200)
    ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
    └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
    ├── llama.cpp v9294 (CUDA 后端)
    │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
    │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
    ├── Hermes Agent v0.14.0 (Python 3.11.15)

    ~/llama.cpp/build/bin/llama-bench
    --model ~/models/Qwen3-27B/Qwen3.6-27B-Q5_K_M.gguf
    --n-gpu-layers 999
    --flash-attn 1
    -p 512,4096,32768
    -n 128
    ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32606 MiB):
    Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32606 MiB

    model size params backend ngl fa test t/s
    qwen35 27B Q5_K - Medium 18.46 GiB 27.32 B CUDA 999 1 pp512 3563.38 ± 231.17
    qwen35 27B Q5_K - Medium 18.46 GiB 27.32 B CUDA 999 1 pp4096 3498.68 ± 9.65
    qwen35 27B Q5_K - Medium 18.46 GiB 27.32 B CUDA 999 1 pp32768 3340.48 ± 350.69
    qwen35 27B Q5_K - Medium 18.46 GiB 27.32 B CUDA 999 1 tg128 62.49 ± 0.99

    build: d14ce3dab (9235)

    AI硬件

  • 京东自营上了5090、6000pro,应该怎么选。
    A airbrush

    @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

    Windows 11 Pro (Build 26200)
    ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
    └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
    ├── llama.cpp v9294 (CUDA 后端)
    │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
    │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
    ├── Hermes Agent v0.14.0 (Python 3.11.15)

    RTX 5090: 32 GB 总显存
    ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
    ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
    └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

    我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

    另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组