跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

FredF

Fred

@Fred
关于
帖子
41
主题
2
分享
0
群组
0
粉丝
1
关注
0

帖子

最新 最佳 有争议的

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    我的装备看这个帖子:
    https://lcz.me/topic/117/小小秀一下我的ai-rig/12

    这个帖子主要是分享一下用这套装备能怎么跑大模型(LLM),有哪些组合,能大概跑出来什么样的效果等等。

    GPU

    • RTX 4090 48G (独立显卡)
    • AMD Radeon AI PRO R9700 32G (独立显卡)
    • AMD Radeon 8060S Graphics 128G(AI MAX 395的集成显卡)

    各自的特点:

    1. AI Max 395:价格14000RMB左右,集成显卡代号8060S,共享内存128G,内存最大,能通吃许多大模型, 但算力最低,内存带宽260G左右,也是最低,所以跑大模型的速度最慢;
    2. 4090 48G:价格30000RMB左右,最贵,最快,显存带宽1TB左右,生态最好,vLLM可以跑得飞起,但48G显存吃不下超大模型,但跑27B模型或者30B模型,可以把上下文放256K,非常爽;
    3. R9700 32G:价格11000RMB左右,32G显存,速度尚可,性价比高,但算力和显存带宽(660G左右),都不如4090,因此速度介于8060S集成显卡和4090之间,能跑27B模型,选择Q4量化模型,上下文也能到256K。

    玩法

    分3类:

    1. 小模型单卡玩法,这就不说了,就是用一个卡跑一个模型;
    2. 中等模型分2卡玩法,例如Qwen3.5-122B模型,本来可以直接跑在AI MAX 395的集成显卡上,但我嫌他性能太差,然而4090和R9700两个卡,任何一个的显存又不够单跑这个模型,但2个卡加起来80G的VRAM就够了,因此可以将它用llama.cpp的-ts参数,分层到2块卡上跑,效果惊人地快;
    3. 超大模型分卡分3卡玩法,例如MiniMax M2.7这种,下载下来哪怕是Q4的量化版本,都有120多GB,连AI MAX 395的128GB都放不下(需要留内存给系统和kv cache),这种情况,可以把同一个模型分成3部分,让4090承担大头,AI MAX395承担中头,R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿,但是能跑,而且如果不用长上下文的Agent,仅用来聊天(利用超大知识库),性能也可以接受(吐字不慢)。

    后面我就把这几种方法跑出来的效果给大家汇报一下。

    测试工具

    llama-benchy: 我用这个工具,它是通过openai的兼容api端点做压测,可以对任何推理引擎做压测(我是vLLM和llama.cpp),它能反映最终用户(例如Hermes Agent)能真正感受到的速度。
    GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

    压测结果

    模型 参数量 量化方式 权重大小 推理框架 GPU PROMPT PREFILL (pp8192) TOKEN GENERATION (tg512)
    MiniMax2.7 230B-A10B UD-IQ4_XS 102GB llama.cpp (-ts) 4090+R9700+8060S 781.68 27.74
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp 8060S 352.36 20.96
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp (-ts) 4090+R9700 2234.51 53.63
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 4090 7978.24 162.10
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp R9700 2880.76 79.05
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 8060S 946.44 50.77
    Qwen3.6-27B 27B AWQ-6Bit 26GB vLLM 4090 2557.59 115.47 (with MTP)
    Qwen3.6-27B 27B UD-Q6_K_XL 25GB llama.cpp 4090 2402.65 33.88
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp R9700 914.31 26.56
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp 8060S 281.44 11.83

    结论

    这个结果其实就和特哥常常讲的一样,有多少钱卖多少钱的设备:买贵的吃不了亏,买便宜的占不了太多便宜。
    以Qwen3.6-27B为例:

    1. 跑在AI MAX 395的8086S上,PP才281个,吐字才11个,这个机器14000RMB,你买到了128G的大显存,还得到了一台不错的windows/linux主机,但是速度没法和独立显卡相比;
    2. 跑在R9700上,PP一下子914个,吐字有26个每秒,这才是可用的速度,但代价是11000RMB;
    3. 跑在4090上,这生态上的优势马上就出来了,用vLLM打开成熟的MTP支持,多请求PP一下子2557个,吐字115个(不要去折腾A卡的vLLM了,我尝试过,Qwen3.6支持度不行,上下文有限, 单请求速度不如llama.cpp),即使跑在llama.cpp上,PP速度也能到2402,只是吐字速度稍慢,才33个(受限与1TB显存带宽以及没有成熟的MTP)。这个卡30000RMB左右,比R9700贵了2倍左右,但你得到的效果也是2倍。

    所以最后还是看自己,显卡这个市场现在基本上是一分钱一分货(除非被骗),不要纠结。自己想干啥,就买啥。

    备注!AI MAX 395现在要重新评价它了,现在涨价到21000左右了,性价比已经比14000的时候低很多了!

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    上传图片说超负荷报错算了用外链

    从左到右:

    1. 主机是AI MAX 395+ 128G统一内存
    2. 中间是一个霸气的绿联显卡坞插了一个R9700,USB4连接到主机
    3. 右边是一个4090 48G魔改涡轮卡,插在京东999显卡坞上,USB4连接到主机

    可以干啥:
    同时存在A卡、N卡、集成显卡(APU),一共有80G的VRAM,128G的UMA,可以跑这些组合:

    1. llama.cpp 特殊编译选项(后面附),可以识别所有卡,可以跨卡用-ts参数跑230B的量化大模型,速度还可以;
    2. 可以在N卡上用vLLM跑Qwen3.6 27B Q6量化的模型,充分发挥vLLM的MTP功能,推理速度和Prefill速度都比llama.cpp更快;
    3. 可以在A卡、N卡上分别跑Comfy-UI;
    4. 主机AI MAX 395+的APU上因为内存大,可以跑一个Qwen3.5 122B的MoE模型,上下文短点的情况下速度也还可以。
    5. ……其他各种组合还可以发挥发挥

    附llama.cpp编译参数
    即让同一个llama.cpp即能识别A卡(ROCm设备),又能识别N卡(CUDA设备),还能用Vulkan通吃所有卡:

    cmake -S . -B build \
        -DGGML_HIP=ON \
        -DGGML_VULKAN=ON \
        -DGGML_CUDA=ON \
        -DCMAKE_CUDA_ARCHITECTURES=89 \
        -DGGML_RPC=ON \
        -DLLAMA_HIP_UMA=ON \
        -DAMDGPU_TARGETS="gfx1030;gfx1031;gfx1151;gfx1201" \
        -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \
        -DGGML_BACKEND_DL=ON \
        -DGGML_NATIVE=OFF \
        -DCMAKE_BUILD_TYPE=Release \
     && cmake --build build -j$(nproc) \
     && cmake --install build
    

    说明:关键点是查好自己显卡的代号,然后正确设置CMAKE_CUDA_ARCHITECTURES,AMDGPU_TARGETS这几个宏。然后编译成功,用llama-cli --list-devices命令能看到自己的卡就说明成功了:

    fred@ai395:~$ llama-cli --list-devices
    ......
    Available devices:
      CUDA0: NVIDIA GeForce RTX 4090 (48508 MiB, 558 MiB free)
      ROCm0: Radeon 8060S Graphics (126976 MiB, 99084 MiB free)
      ROCm1: AMD Radeon AI PRO R9700 (32624 MiB, 32556 MiB free)
      Vulkan0: NVIDIA GeForce RTX 4090 (49386 MiB, 782 MiB free)
      Vulkan1: AMD Radeon AI PRO R9700 (RADV GFX1201) (32624 MiB, 32566 MiB free)
      Vulkan2: Radeon 8060S Graphics (RADV GFX1151) (127488 MiB, 111400 MiB free)
    

    vLLM在N卡单跑Qwen3.6 27B Q6大模型的命令行:

    export MODEL=/home/fred/llama-models/QuantTrio/Qwen3.6-27B-AWQ-6Bit
    export SERVED_MODEL_NAME=Qwen3.6-27B-vLLM
    export DOCKER_IMG=vllm/vllm-openai:latest
    export HOST_PORT=8000
    
    podman run --name ${SERVED_MODEL_NAME} --device nvidia.com/gpu=all \
        -v /tmp:/workspace \
        -v $MODEL:$MODEL \
        --env "HF_TOKEN=$HF_TOKEN" \
        -p 8000:8000 \
        --ipc=host \
        $DOCKER_IMG $MODEL \
        --max-model-len 200000 \
        --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' \
        --kv-cache-dtype fp8 \
        --tensor-parallel-size 1 \
        --enable-prefix-caching \
        --max-num-batched-tokens 8192 \
        --max-num-seqs 2 \
        --served-model-name ${SERVED_MODEL_NAME} \
        --enable-auto-tool-choice \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen3_coder \
        --gpu-memory-utilization 0.9 \
        --host 0.0.0.0 \
        --port 8000
    

    其他说明

    • 模型可以全速跑,但前提是全量的模型必须能fit进某一个卡的VRAM,这样USB4不会造成降速。
    • 用llama.cpp的-ts选项跨卡跑模型,可以充分利用各卡的显存,由于USB4的时延比PCIE高,所以性能稍有损失,但不大,因为跨卡数据交换量不大且交换并不频繁。
    • vLLM不可跨A卡和N卡跑Tensor Parallel,只能跨多个A卡和多个N卡(因为底层的PyTorch只能支持一个版本)。
    • 我在llama.cpp和vLLM前端顶了一个可以自动切换模型的代理工具llama-swap,定义好之后用起来是很方便的。
    • 操作系统是Fedora Linux 43,驱动跟着社区更新就行(时不时的dnf update一下)。
    • 要懂点Linux,不然不要这么玩,还是要懂些技术才能搞定的。

    秀完了
    这一套东西,加起来还是得5万左右。现在AI MAX 395又涨价了,可能现在得5万5左右了。目前还只是纯玩,平时实在没时间琢磨怎么用它赚钱。

    AI硬件

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    FredF Fred

    @Miraco 对于小白来说,现在还不是时候。目前还是一个PR,等合入llama.cpp主线版本后,你再去拿来用,别花时间现在去折腾。目前2大问题:

    1. MTP虽然能大幅增加推理吐字速度,但同时会导致Prefill速度降低,这是社区已知bug,有大神在积极处理,不妨等着。因为对于Hermes Agent或者编程Agent这一类的应用而言,上下文很长,Prefill速度和推理吐字的速度(TG速度),对于人的感受同样重要。
    2. 目前上了PR里的MTP,就只能上一个并发(-np 1),对于有subagent的应用来说,还是有点影响。

    总之就是小白不建议折腾,坐等社区进主线用稳定版的,它才香。

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    来补些图:
    图1:注意看,在下面一层有一个关键设备:大疆POWER 1000。当成一个UPS来用,都花了这么多小钱钱,买了卡买了机器,不要吝啬把电源配得保险一些,别因为电源闪断,或者电压不稳或者突然断电,烧了卡之后还要找修显卡的张哥,就麻烦大了。
    替代文字

    图2:4090显卡,以及狗东999的显卡坞,USB4和Ocuulink双接口,自带800w电源,很不错。但两个特别提醒:

    1. 不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误:它的雷电UUID好像是固定的,没法改,每个显卡坞都是一样的UUID。因此在Linux下,只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞,但第二个始终不识别,这个问题当时折腾我好久。最后买了退,退了换,最后换了品牌,有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
    2. 4090和R9700,都是12PIN+4PIN的PCI-E电源线,这个显卡坞不带这种线,只带3个8PIN线,需要自己买转接,或者显卡如果带也行。
      替代文字

    图3:霸气的绿联显卡坞,自带850W金牌电源,自带12PIN+4PIN,自带8PIN,通吃一切显卡。缺点是不便宜啊,显卡坞2000+的就不算便宜了:
    替代文字

    图4:颜值在线的R9700,这卡是真好看。但它在显卡坞上有个毛病要注意:如果主机不开机,它的风扇会狂转。
    替代文字

    图5图6:主机AI MAX 395,零刻的128G版本,刚去查了一下狗东,狗日的涨价到21000了!我当时买的时候14000。后面带2个10G网口,2个USB4 type-c,前置带指纹解锁(Windows才能用)。我插了2个显卡坞,都是type-c,后面看着也不拥挤,还好。我这个机器是Linux无头服务器,也不用它打游戏啥的,因此随意插了一个hdmi的线到显示器。干干净净的,不挤。
    替代文字
    替代文字

    总结一下几个坑:

    1. 不要买2个同样型号的狗东999显卡坞
    2. R9700外置,如果主机不开,风扇会狂转,此时只能自己去关显卡坞的电源
    3. 尽量上个UPS,对你的几万块的资产稍微好点
    AI硬件

  • 看到一个很优雅的5090, 有点儿动心
    FredF Fred

    @Tony-Wang 说:

    在Amazon上看到一个技嘉的 AI Box 一体式液冷显卡, 似乎很安静的样子, 配个支持雷电5的小主机, 很优雅的方案.

    6500加币不到(税后), 价格也不错, 可惜没法带回国 😠 各位老大是否了解, 在国内能买到这个这吗?

    41M0QsSavtL.AC.jpg

    够优雅,有点意思。如果有Occulink的话,就更好了。
    现在显卡坞我一般买双接口的,除了雷电还有Occulink。如果你后面扩展2卡做TP(tensor parallel),雷电的时延挺高,双卡跑起来效果就显著不如Occulink的PCIE直连了。不过我这个结论是参考的reddit,自己没有实测过。但Apple在MAC上给雷电添加了RDMA支持,就是为了降低时延,从这一点来看,雷电时延高会降低TP速度这个结论应该是比较靠谱的。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @张老师 说:

    @Fred 说:

    不要买2个同样型号的狗东999显卡坞

    这个有什么说法吗?插到同一台机器上会Bug?

    第二个不识别,用tbctl list命令只能看见第一个。后来我反复测试,发现他们家显卡坞的每个设备UUID都相同。如果2个雷电设备UUID相同,Linux的tb驱动在授权(enroll)雷电设备的时候,是以UUID来区分设备的,结果是第二个没法用uuid授权了。因此我的第二个显卡坞不识别,我也没找到修改uuid的方法(据说是烧录在显卡坞固件的),最后就不折腾了,把第二个退了。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    再补,llama.cpp单卡命令行。
    743adb22-7fbe-4fa4-b2fe-f9edafd884f2-image.jpeg
    和分卡命令行:
    151a7009-e0de-4cdc-8741-4de75dbe0373-image.jpeg
    vllm命令行:
    f1b756bf-c403-465e-9edf-29b6e307492b-image.jpeg

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @terry 说:

    @Fred 抄作业的材料凑足了,又能水一集。

    行。这些帖子特哥您看着随便用。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @pilipala 说:

    @Fred 老哥的4090是狗东哪家买的,看看是不是一家,我的万一翻车了就买你那家的,还有R9700是1万1入的么?

    我在一家叫做天成智算买的,不过还是推荐自营的那两家。我这个的发货过程有点波折,他们一开始给我填了一个错误的单号,第二天就显示我已经收货了,实际上我连毛都没看到,货也显示被发到了浙江某个地址,跟我完全不在一个省。
    后来他们重新填了单号。货到之后我用Linux的gpu-burn工具压测一小时没问题,这几天用下来感觉还是不错,我就给他们确认收货了。

    AI硬件

  • 部署llm用于写代码,构建本地项目
    FredF Fred

    @Vittoria-Veloso 说:

    问下,我的笔记本mac他的显存可以给到23gb左右,我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡,算了装台湾人上辉达显卡还是mac,2w人民币预算。我不想折腾Claude,封号太严重了,Gemini确实生成代码质量不太高,而且客户要求隐私。

    你这个需求有2万预算绰绰有余了。目前情况下一定是上独立显卡不管是R9700还是英伟达的某个魔改卡,肯定比mac的效果好。
    如果羡慕claude code的效果,又不想用官方模型,可以试试这个:https://github.com/Alishahryar1/free-claude-code 这个项目,把本地LLM伪装成claude code的官方网关,顶在你的本地llama.cpp之前,模拟出全功能的Opus、Sonnet、Haiku模型。你开发的客户端可以用claude code,享受全量功能和插件(包括automode也能开)。
    但更原生不折腾的方法也有,用trae.CN做编程,直接对接llama.cpp就是了(推荐)。

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    @johnnybegood 说:

    @Fred 这一套跟 6000 pro 96g 比起来如何呢?

    这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存,N卡最新架构,算力比5090略强,从生态,到实际的性能,都比这3货加起来还强不少。但我没法给你准确的数字,只知道肯定是PRO 6000强。
    考虑价格,我这套就算5万5吧,PRO 6000单卡7万,加配个主机,稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
    但是需要知道一点,我这个大众高尔夫GTI也不是一无是处,PRO 6000单卡跑230B大模型估计够呛,如果还想所有层都在显存里,更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @幻獸 我用外链了,直接上传论坛总是失败。我这还不算多哦,玩起来就没个底,我强迫自己不能再买了,再买砍手。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据

    作业交了 @terry

    AI硬件

  • 求教,顯卡的選擇
    FredF Fred

    如果你demo打游戏,那就5090D -_-;;;
    小特瞎说,Qwen3.6哪里来的70B,只有27B和35B MoE。这两个5090D都能跑。
    如果跑LLM,确实是显存大就可以为所欲为,R9700配合llama.cpp的分层功能,不算慢。也可以尝试vLLM的双卡TP,但我试了,A卡vLLM对Qwen3.6支持不行,一些旧模型可以,但上下文非常有限,性能不如N卡。真要尝试,用linux,用这位老哥的toolbox:https://github.com/kyuz0/amd-r9700-vllm-toolboxes/

    你要是demo视频生成啥的,那就问老特,这方面我没经验了。

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组