跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

T

topgun2000

@topgun2000
取消关注 关注
关于
帖子
10
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • X99+2680V4+2080ti22G+96G内存,计划装双卡,不知道跑视频不会不快点。
    T topgun2000

    @Li-Brace 好像魔改版的2080ti 22GB没有留NVlink接口,只能用layer split

    AI硬件

  • Qwen3.6-27B 六大启动模式详解:性能、参数与场景
    T topgun2000

    @abaalei 说:

    长文本(Ryzen 9700X 参考) 140-172 tok/s X99 DDR4 是瓶颈

    这个大概率是因为PCI-E 5.0 vs PCI-E 3.0,两个显卡做TP,瓶颈是PCI-E,除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

    5.0 x16 带宽是 3.0 x16的四倍

    LLM讨论区

  • 交作业, 7900XTX + Hermes Agent + Qwen3.6-27B 调优过程分享
    T topgun2000

    @kylin_Zaki 我用4090跑Qwen3.6-27B-UD-Q4_K_XL-mtp 参数 --ctx-size 120000 --cache-type-k q8_0 --cache-type-v q8_0 可以运行,显存用大概23.3GB。不过我没有长时间测试,也许显存会最后不够

    AI硬件

  • 新手不要碰DGX Spark(重要事情说三遍)
    T topgun2000

    @Vivid-Vector 用的是DDR5+5070内核,192bit width, 速度上不去的。单显5070用的是DDR7

    128GB DDR5要一千多刀吧,还有一千多刀的CX-7 Dual port,成本在那里的,便宜不了太多

    随便聊聊 spark gb10

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    T topgun2000

    @applejuice 了解了,他用的是int4的文字模型,所以TP更快一些

    AI硬件 nvidia rtx3090 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    T topgun2000

    @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

    @Leon-Y 为什么你的数据比 @applejuice 的好很多?

    AI硬件 nvidia rtx3090 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    T topgun2000

    @applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL,不过是单卡4090 24GB,所以上下文只能装120000。MTP开了以后大概能85~90tps,不开大概45tps,vram用了23GB

    AI硬件 nvidia rtx3090 multi-gpu

  • 华南金牌H12D-8D/16D双路主板cpu套装
    T topgun2000

    @applejuice 我还有个技嘉的板子16个内存槽512GB+7K62,跑Qwen3.5-397B-A17B-UD-Q4_K_XL也差不多5TPS,比7443稍微慢点。AI说7K62应该比7443快点,因为是8CCD,7443只有4个CCD。但是实际内存是2666 vs 2933,所以内存速度更重要

    AI硬件

  • 华南金牌H12D-8D/16D双路主板cpu套装
    T topgun2000

    @applejuice 对,我跑233GB的MOE大模型Qwen3.5-397B-A17B-UD-Q4_K_XL,CPU+DDR4只能5TPS。12通道DDR5大概能到460 GB/s ~ 614 GB/s,加上新的9005 Epyc,估计能到15TPS。但是DDR5太贵了,我的DDR4是以前买的,现在也涨价三倍了

    H12D-16D双路应该用不上,两个CPU管理不同的内存卡槽,垮桥通信是个瓶颈

    AI硬件

  • 华南金牌H12D-8D/16D双路主板cpu套装
    T topgun2000

    H12D-8D不是单路版吗?我买了一个配7443,挺不错,是atx,普通pc机箱就能用,做工实在

    不过只有8个ddr4内存槽。其他一些华硕技嘉的二手版有16个内存槽,一般都是e-atx大版,需要大机箱或者服务器

    装了256GB DDR4,直接用CPU推理,八个通道可以达到200GB/s,肯定比GPU慢,但是可以装大模型测试

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组