跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Vivid VectorV

Vivid Vector

@Vivid Vector
关于
帖子
7
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 各位大神,我新机器,有没有必要升级内存
    Vivid VectorV Vivid Vector

    @mark
    你这内存64GB绰绰有余了,再升容量或频率对Qwen 27B这种稠密模型没有任何实质提升,要升就升显卡,或者再加一张

    DDR5内存那点小水管带宽以及CPU那点算力,在显存带宽和显卡张量核心面前就是渣滓

    AI硬件

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Vivid VectorV Vivid Vector

    @hotpigwk
    咸鱼上二手V100 16G的成品卡(转接好PCIE直插)就1100左右价格,直接买一张上来测试跑大模型,或者你要跑27B的就买2张,总价2200,自己折腾然后把实测数据截图发论坛里,就有话题有人聊了😁

    AI硬件

  • 装机翻车了,求救
    Vivid VectorV Vivid Vector

    @pilipala
    电源买振华或海韵,或者海韵代工的

    AI硬件

  • Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。
    Vivid VectorV Vivid Vector

    @Chuyao-Chen
    阉割版的RTX 6000D 84GB 是这个价格

    AI Agent

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    Vivid VectorV Vivid Vector

    @Tide
    nvtop也是个不错的N卡监控工具,支持多卡
    fa5aab5b-f138-4ef8-a014-297c9638bc60-image.jpeg

    AI硬件

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    Vivid VectorV Vivid Vector

    @暧昧光影
    手上暂时没有3090Ti。
    不过按我的经验,温度能控制得住的情况下,锁功率,小超核心,大超显存,对于跑LLM来说都适用。
    B站有人实测PRO 6000 Max-Q 版,功率只有300W,相比满血600W的工作站版只损失10%的性能,而且他还没给显存超频。

    我看到的PRO 6000,跑LLM经常都是吃不满功耗,TDP 600W的工作站版,只吃到450W左右的样子。
    跑满600W功耗的情况,通常是GPU SM里的CUDA核心满载,Tensor Cores也接近满载,同时显存空间和带宽也占用很高的情况才会出现。
    LLM的矩阵运算主要靠Tensor Cores执行,且吃满显存空间和带宽,但SM CUDA核心通常空载。

    AI硬件

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    Vivid VectorV Vivid Vector

    @Tide 限制显卡功率,同时给显存超频,测试一下稳定性。
    我用着2080Ti 22GB改水冷的,用Nvidia Inspector工具,把功率限制在200W~230W,核心超频+40Mhz(也可以不超核心),显存超频+1200Mhz,跑下来温度最高只有不到50°C,热点不超过65°C,室温27°C左右。
    c5e7bceb-5567-4c81-a8fe-141ef62f31cb-image.jpeg
    显存超频后带宽721.6GB/s,相比默认的616GB/s,提升超过17%,完美抵消限制功率导致的核心频率下降带来的性能损失,直接节约100W,33%的功率

    Qwen 27B Q4_K_M,上下文开32K跑下来,decode 25 tok/s

    用Llama.cpp benchmark跑分如图:
    全默认,显卡功率300W:
    651469fd-d0f4-49b3-9a39-0b9db73f5c9d-image.jpeg

    核心超频+40Mhz,显存超频+1200Mhz:
    2d1fcffb-c888-402a-a6bf-5634b04712d4-image.jpeg

    核心超频+40Mhz,显存超频+1200Mhz,显卡功率锁67%限制在200W:
    daa6d53a-0eef-4ffb-85ab-14ad9a2030a4-image.jpeg

    大语言模型主的矩阵运算要跑在GPU的Tensor Cores上,对GPU其他部分如大量的SM单元里的CUDA核心占用不高,GPU此时对功率的实际消耗并不需要太高。

    并且大语言模型prefill阶段对核心频率有一定依赖,但降频对prefill性能影响不太大。
    decode吐字阶段,对显存带宽的依赖程度大于核心算力,经常是显存带宽不足,喂不饱核心,核心有很多时间都在空转等数据。

    综上,你的3080可以尝试限制功率,并小超显存,给显卡背板加装散热铝片+风扇。
    然后实测看看数据。

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组