跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 小小秀一下我的AI RIG

小小秀一下我的AI RIG

已定时 已固定 已锁定 已移动 AI硬件
50 帖子 17 发布者 762 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • O 离线
    O 离线
    Omiga
    编写于 最后由 编辑
    #19

    零刻这个395的机器年初的时候想买15000左右,没下手,过了一段时间20000左右了,实在接受不了了。初发的时候才13000。这个差距实在有点大。想想玩的人不多,就放弃了。

    1 条回复 最后回复
    0
    • K 离线
      K 离线
      kukudelaodie
      编写于 最后由 编辑
      #20

      没啥用,二手或者三手后,打五折

      1 条回复 最后回复
      0
      • FredF Fred

        @韦春花 说:

        牛B,以后叫你缝合怪了😂

        哈哈。是滴,这一套够缝合的,一看就是那种野路子爱好者零零碎碎买来玩的。我这套的缝合剂是llama.cpp,真的可以在3个GPU上分层跑200多B的模型,体验还不错那种。除了llama.cpp,还真没找到其他的可以充分聚合3卡能力的软件。

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 terry 编辑
        #21

        @Fred 咋没后续了,泡泡,发点干货啊,你的设备都很有参考价值,都踩在甜点上了。多跑点模型,comfyui之类的,给我们参考下。

        FredF 1 条回复 最后回复
        0
        • M 离线
          M 离线
          mark
          编写于 最后由 编辑
          #22

          这装备,太牛了.

          1 条回复 最后回复
          0
          • M 离线
            M 离线
            mark
            编写于 最后由 编辑
            #23

            你这两个 显卡 怎么使用的? 能串联吗?

            FredF 1 条回复 最后回复
            0
            • FredF Fred

              @terry 说:

              @Fred 你这套东西战斗力极强,弄点应用场景,跑起来啊。

              是滴特哥。这一套说白了,和你的4090+RTX7900的战斗力类似,你这套能干的活儿我这套也能干,估计有时间弄的话也能用它挣钱。可我现在还是个苦逼的打工仔,平时精力和时间都不够折腾的。目前还只能以玩为主,有时间的话看看你的视频,来论坛吹吹牛逼,看见有小白问问题技痒了回答一下啥的还行。其他就搞不了了。😧

              P 离线
              P 离线
              pilipala
              编写于 最后由 编辑
              #24

              @Fred 我和你一样,打工仔,只能利用业余时间折腾,如果能赚到外快最好,赚不到也无所谓,就当纯乐子玩了。4090 48周末终于要到了,老特这几天一直发硬件视频搞心态哈哈~

              FredF 1 条回复 最后回复
              0
              • P 离线
                P 离线
                pilipala
                编写于 最后由 编辑
                #25

                @terry 是不是论坛加个帖子收藏的功能?

                1 条回复 最后回复
                0
                • terryT terry

                  @Fred 咋没后续了,泡泡,发点干货啊,你的设备都很有参考价值,都踩在甜点上了。多跑点模型,comfyui之类的,给我们参考下。

                  FredF 离线
                  FredF 离线
                  Fred
                  编写于 最后由 编辑
                  #26

                  @terry 说:

                  @Fred 咋没后续了,泡泡,发点干货啊,你的设备都很有参考价值,都踩在甜点上了。多跑点模型,comfyui之类的,给我们参考下。

                  行啊特哥。我主要跑LLM,一般Comfy-UI就是纯玩儿。我回头把我能跑的大模型、以及各自的跑法,和性能数据区LLM板块发个分享。

                  terryT 1 条回复 最后回复
                  0
                  • FredF Fred

                    @terry 说:

                    @Fred 咋没后续了,泡泡,发点干货啊,你的设备都很有参考价值,都踩在甜点上了。多跑点模型,comfyui之类的,给我们参考下。

                    行啊特哥。我主要跑LLM,一般Comfy-UI就是纯玩儿。我回头把我能跑的大模型、以及各自的跑法,和性能数据区LLM板块发个分享。

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #27

                    @Fred 对的,大家需要你的干货,你的每个装备都踩在屌丝们都G点上了。

                    1 条回复 最后回复
                    0
                    • M mark

                      你这两个 显卡 怎么使用的? 能串联吗?

                      FredF 离线
                      FredF 离线
                      Fred
                      编写于 最后由 编辑
                      #28

                      @mark 说:

                      你这两个 显卡 怎么使用的? 能串联吗?

                      原则是能一个卡装下的,就不要分2个卡,能两个卡装下的,就不要分3个卡。根据模型大小灵活地分配到每个卡,用llama.cpp的tensor split (-ts参数)分层跑。回头我在LLM发个帖子,说一下怎么用。

                      1 条回复 最后回复
                      0
                      • FredF Fred 被引用 于这个主题
                      • FredF Fred

                        上传图片说超负荷报错算了用外链

                        从左到右:

                        1. 主机是AI MAX 395+ 128G统一内存
                        2. 中间是一个霸气的绿联显卡坞插了一个R9700,USB4连接到主机
                        3. 右边是一个4090 48G魔改涡轮卡,插在京东999显卡坞上,USB4连接到主机

                        可以干啥:
                        同时存在A卡、N卡、集成显卡(APU),一共有80G的VRAM,128G的UMA,可以跑这些组合:

                        1. llama.cpp 特殊编译选项(后面附),可以识别所有卡,可以跨卡用-ts参数跑230B的量化大模型,速度还可以;
                        2. 可以在N卡上用vLLM跑Qwen3.6 27B Q6量化的模型,充分发挥vLLM的MTP功能,推理速度和Prefill速度都比llama.cpp更快;
                        3. 可以在A卡、N卡上分别跑Comfy-UI;
                        4. 主机AI MAX 395+的APU上因为内存大,可以跑一个Qwen3.5 122B的MoE模型,上下文短点的情况下速度也还可以。
                        5. ……其他各种组合还可以发挥发挥

                        附llama.cpp编译参数
                        即让同一个llama.cpp即能识别A卡(ROCm设备),又能识别N卡(CUDA设备),还能用Vulkan通吃所有卡:

                        cmake -S . -B build \
                            -DGGML_HIP=ON \
                            -DGGML_VULKAN=ON \
                            -DGGML_CUDA=ON \
                            -DCMAKE_CUDA_ARCHITECTURES=89 \
                            -DGGML_RPC=ON \
                            -DLLAMA_HIP_UMA=ON \
                            -DAMDGPU_TARGETS="gfx1030;gfx1031;gfx1151;gfx1201" \
                            -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \
                            -DGGML_BACKEND_DL=ON \
                            -DGGML_NATIVE=OFF \
                            -DCMAKE_BUILD_TYPE=Release \
                         && cmake --build build -j$(nproc) \
                         && cmake --install build
                        

                        说明:关键点是查好自己显卡的代号,然后正确设置CMAKE_CUDA_ARCHITECTURES,AMDGPU_TARGETS这几个宏。然后编译成功,用llama-cli --list-devices命令能看到自己的卡就说明成功了:

                        fred@ai395:~$ llama-cli --list-devices
                        ......
                        Available devices:
                          CUDA0: NVIDIA GeForce RTX 4090 (48508 MiB, 558 MiB free)
                          ROCm0: Radeon 8060S Graphics (126976 MiB, 99084 MiB free)
                          ROCm1: AMD Radeon AI PRO R9700 (32624 MiB, 32556 MiB free)
                          Vulkan0: NVIDIA GeForce RTX 4090 (49386 MiB, 782 MiB free)
                          Vulkan1: AMD Radeon AI PRO R9700 (RADV GFX1201) (32624 MiB, 32566 MiB free)
                          Vulkan2: Radeon 8060S Graphics (RADV GFX1151) (127488 MiB, 111400 MiB free)
                        

                        vLLM在N卡单跑Qwen3.6 27B Q6大模型的命令行:

                        export MODEL=/home/fred/llama-models/QuantTrio/Qwen3.6-27B-AWQ-6Bit
                        export SERVED_MODEL_NAME=Qwen3.6-27B-vLLM
                        export DOCKER_IMG=vllm/vllm-openai:latest
                        export HOST_PORT=8000
                        
                        podman run --name ${SERVED_MODEL_NAME} --device nvidia.com/gpu=all \
                            -v /tmp:/workspace \
                            -v $MODEL:$MODEL \
                            --env "HF_TOKEN=$HF_TOKEN" \
                            -p 8000:8000 \
                            --ipc=host \
                            $DOCKER_IMG $MODEL \
                            --max-model-len 200000 \
                            --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' \
                            --kv-cache-dtype fp8 \
                            --tensor-parallel-size 1 \
                            --enable-prefix-caching \
                            --max-num-batched-tokens 8192 \
                            --max-num-seqs 2 \
                            --served-model-name ${SERVED_MODEL_NAME} \
                            --enable-auto-tool-choice \
                            --reasoning-parser qwen3 \
                            --tool-call-parser qwen3_coder \
                            --gpu-memory-utilization 0.9 \
                            --host 0.0.0.0 \
                            --port 8000
                        

                        其他说明

                        • 模型可以全速跑,但前提是全量的模型必须能fit进某一个卡的VRAM,这样USB4不会造成降速。
                        • 用llama.cpp的-ts选项跨卡跑模型,可以充分利用各卡的显存,由于USB4的时延比PCIE高,所以性能稍有损失,但不大,因为跨卡数据交换量不大且交换并不频繁。
                        • vLLM不可跨A卡和N卡跑Tensor Parallel,只能跨多个A卡和多个N卡(因为底层的PyTorch只能支持一个版本)。
                        • 我在llama.cpp和vLLM前端顶了一个可以自动切换模型的代理工具llama-swap,定义好之后用起来是很方便的。
                        • 操作系统是Fedora Linux 43,驱动跟着社区更新就行(时不时的dnf update一下)。
                        • 要懂点Linux,不然不要这么玩,还是要懂些技术才能搞定的。

                        秀完了
                        这一套东西,加起来还是得5万左右。现在AI MAX 395又涨价了,可能现在得5万5左右了。目前还只是纯玩,平时实在没时间琢磨怎么用它赚钱。

                        David ZhangD 离线
                        David ZhangD 离线
                        David Zhang
                        编写于 最后由 编辑
                        #29

                        @Fred 坛子里最缺你这样的大佬,牛逼的装备,一饱眼福啊!

                        1 条回复 最后回复
                        0
                        • FredF 离线
                          FredF 离线
                          Fred
                          编写于 最后由 编辑
                          #30

                          https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据

                          作业交了 @terry

                          1 条回复 最后回复
                          1
                          • 张老师张 离线
                            张老师张 离线
                            张老师
                            编写于 最后由 编辑
                            #31

                            牛逼啊,这设备!

                            1 条回复 最后回复
                            0
                            • P pilipala

                              @Fred 我和你一样,打工仔,只能利用业余时间折腾,如果能赚到外快最好,赚不到也无所谓,就当纯乐子玩了。4090 48周末终于要到了,老特这几天一直发硬件视频搞心态哈哈~

                              FredF 离线
                              FredF 离线
                              Fred
                              编写于 最后由 编辑
                              #32

                              @pilipala 说:

                              @Fred 我和你一样,打工仔,只能利用业余时间折腾,如果能赚到外快最好,赚不到也无所谓,就当纯乐子玩了。4090 48周末终于要到了,老特这几天一直发硬件视频搞心态哈哈~

                              哈哈。我也是看了老特视频,才去狗东淘了一块4090魔改卡的。爽真是爽,特别是在有对比的情况下。就是肉有点疼,好在狗东的物流也比较靠谱。

                              1 条回复 最后回复
                              0
                              • FredF Fred

                                上传图片说超负荷报错算了用外链

                                从左到右:

                                1. 主机是AI MAX 395+ 128G统一内存
                                2. 中间是一个霸气的绿联显卡坞插了一个R9700,USB4连接到主机
                                3. 右边是一个4090 48G魔改涡轮卡,插在京东999显卡坞上,USB4连接到主机

                                可以干啥:
                                同时存在A卡、N卡、集成显卡(APU),一共有80G的VRAM,128G的UMA,可以跑这些组合:

                                1. llama.cpp 特殊编译选项(后面附),可以识别所有卡,可以跨卡用-ts参数跑230B的量化大模型,速度还可以;
                                2. 可以在N卡上用vLLM跑Qwen3.6 27B Q6量化的模型,充分发挥vLLM的MTP功能,推理速度和Prefill速度都比llama.cpp更快;
                                3. 可以在A卡、N卡上分别跑Comfy-UI;
                                4. 主机AI MAX 395+的APU上因为内存大,可以跑一个Qwen3.5 122B的MoE模型,上下文短点的情况下速度也还可以。
                                5. ……其他各种组合还可以发挥发挥

                                附llama.cpp编译参数
                                即让同一个llama.cpp即能识别A卡(ROCm设备),又能识别N卡(CUDA设备),还能用Vulkan通吃所有卡:

                                cmake -S . -B build \
                                    -DGGML_HIP=ON \
                                    -DGGML_VULKAN=ON \
                                    -DGGML_CUDA=ON \
                                    -DCMAKE_CUDA_ARCHITECTURES=89 \
                                    -DGGML_RPC=ON \
                                    -DLLAMA_HIP_UMA=ON \
                                    -DAMDGPU_TARGETS="gfx1030;gfx1031;gfx1151;gfx1201" \
                                    -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \
                                    -DGGML_BACKEND_DL=ON \
                                    -DGGML_NATIVE=OFF \
                                    -DCMAKE_BUILD_TYPE=Release \
                                 && cmake --build build -j$(nproc) \
                                 && cmake --install build
                                

                                说明:关键点是查好自己显卡的代号,然后正确设置CMAKE_CUDA_ARCHITECTURES,AMDGPU_TARGETS这几个宏。然后编译成功,用llama-cli --list-devices命令能看到自己的卡就说明成功了:

                                fred@ai395:~$ llama-cli --list-devices
                                ......
                                Available devices:
                                  CUDA0: NVIDIA GeForce RTX 4090 (48508 MiB, 558 MiB free)
                                  ROCm0: Radeon 8060S Graphics (126976 MiB, 99084 MiB free)
                                  ROCm1: AMD Radeon AI PRO R9700 (32624 MiB, 32556 MiB free)
                                  Vulkan0: NVIDIA GeForce RTX 4090 (49386 MiB, 782 MiB free)
                                  Vulkan1: AMD Radeon AI PRO R9700 (RADV GFX1201) (32624 MiB, 32566 MiB free)
                                  Vulkan2: Radeon 8060S Graphics (RADV GFX1151) (127488 MiB, 111400 MiB free)
                                

                                vLLM在N卡单跑Qwen3.6 27B Q6大模型的命令行:

                                export MODEL=/home/fred/llama-models/QuantTrio/Qwen3.6-27B-AWQ-6Bit
                                export SERVED_MODEL_NAME=Qwen3.6-27B-vLLM
                                export DOCKER_IMG=vllm/vllm-openai:latest
                                export HOST_PORT=8000
                                
                                podman run --name ${SERVED_MODEL_NAME} --device nvidia.com/gpu=all \
                                    -v /tmp:/workspace \
                                    -v $MODEL:$MODEL \
                                    --env "HF_TOKEN=$HF_TOKEN" \
                                    -p 8000:8000 \
                                    --ipc=host \
                                    $DOCKER_IMG $MODEL \
                                    --max-model-len 200000 \
                                    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' \
                                    --kv-cache-dtype fp8 \
                                    --tensor-parallel-size 1 \
                                    --enable-prefix-caching \
                                    --max-num-batched-tokens 8192 \
                                    --max-num-seqs 2 \
                                    --served-model-name ${SERVED_MODEL_NAME} \
                                    --enable-auto-tool-choice \
                                    --reasoning-parser qwen3 \
                                    --tool-call-parser qwen3_coder \
                                    --gpu-memory-utilization 0.9 \
                                    --host 0.0.0.0 \
                                    --port 8000
                                

                                其他说明

                                • 模型可以全速跑,但前提是全量的模型必须能fit进某一个卡的VRAM,这样USB4不会造成降速。
                                • 用llama.cpp的-ts选项跨卡跑模型,可以充分利用各卡的显存,由于USB4的时延比PCIE高,所以性能稍有损失,但不大,因为跨卡数据交换量不大且交换并不频繁。
                                • vLLM不可跨A卡和N卡跑Tensor Parallel,只能跨多个A卡和多个N卡(因为底层的PyTorch只能支持一个版本)。
                                • 我在llama.cpp和vLLM前端顶了一个可以自动切换模型的代理工具llama-swap,定义好之后用起来是很方便的。
                                • 操作系统是Fedora Linux 43,驱动跟着社区更新就行(时不时的dnf update一下)。
                                • 要懂点Linux,不然不要这么玩,还是要懂些技术才能搞定的。

                                秀完了
                                这一套东西,加起来还是得5万左右。现在AI MAX 395又涨价了,可能现在得5万5左右了。目前还只是纯玩,平时实在没时间琢磨怎么用它赚钱。

                                J 离线
                                J 离线
                                johnnybegood
                                编写于 最后由 编辑
                                #33

                                @Fred 这一套跟 6000 pro 96g 比起来如何呢?

                                FredF 1 条回复 最后回复
                                0
                                • J johnnybegood

                                  @Fred 这一套跟 6000 pro 96g 比起来如何呢?

                                  FredF 离线
                                  FredF 离线
                                  Fred
                                  编写于 最后由 编辑
                                  #34

                                  @johnnybegood 说:

                                  @Fred 这一套跟 6000 pro 96g 比起来如何呢?

                                  这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存,N卡最新架构,算力比5090略强,从生态,到实际的性能,都比这3货加起来还强不少。但我没法给你准确的数字,只知道肯定是PRO 6000强。
                                  考虑价格,我这套就算5万5吧,PRO 6000单卡7万,加配个主机,稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
                                  但是需要知道一点,我这个大众高尔夫GTI也不是一无是处,PRO 6000单卡跑230B大模型估计够呛,如果还想所有层都在显存里,更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

                                  terryT 1 条回复 最后回复
                                  1
                                  • FredF Fred

                                    @johnnybegood 说:

                                    @Fred 这一套跟 6000 pro 96g 比起来如何呢?

                                    这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存,N卡最新架构,算力比5090略强,从生态,到实际的性能,都比这3货加起来还强不少。但我没法给你准确的数字,只知道肯定是PRO 6000强。
                                    考虑价格,我这套就算5万5吧,PRO 6000单卡7万,加配个主机,稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
                                    但是需要知道一点,我这个大众高尔夫GTI也不是一无是处,PRO 6000单卡跑230B大模型估计够呛,如果还想所有层都在显存里,更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

                                    terryT 离线
                                    terryT 离线
                                    terry
                                    编写于 最后由 编辑
                                    #35

                                    @Fred 你已经是顶配了,能把你的设备发挥出一半战力,就能赚到很多钱了。

                                    1 条回复 最后回复
                                    0
                                    • FredF Fred

                                      上传图片说超负荷报错算了用外链

                                      从左到右:

                                      1. 主机是AI MAX 395+ 128G统一内存
                                      2. 中间是一个霸气的绿联显卡坞插了一个R9700,USB4连接到主机
                                      3. 右边是一个4090 48G魔改涡轮卡,插在京东999显卡坞上,USB4连接到主机

                                      可以干啥:
                                      同时存在A卡、N卡、集成显卡(APU),一共有80G的VRAM,128G的UMA,可以跑这些组合:

                                      1. llama.cpp 特殊编译选项(后面附),可以识别所有卡,可以跨卡用-ts参数跑230B的量化大模型,速度还可以;
                                      2. 可以在N卡上用vLLM跑Qwen3.6 27B Q6量化的模型,充分发挥vLLM的MTP功能,推理速度和Prefill速度都比llama.cpp更快;
                                      3. 可以在A卡、N卡上分别跑Comfy-UI;
                                      4. 主机AI MAX 395+的APU上因为内存大,可以跑一个Qwen3.5 122B的MoE模型,上下文短点的情况下速度也还可以。
                                      5. ……其他各种组合还可以发挥发挥

                                      附llama.cpp编译参数
                                      即让同一个llama.cpp即能识别A卡(ROCm设备),又能识别N卡(CUDA设备),还能用Vulkan通吃所有卡:

                                      cmake -S . -B build \
                                          -DGGML_HIP=ON \
                                          -DGGML_VULKAN=ON \
                                          -DGGML_CUDA=ON \
                                          -DCMAKE_CUDA_ARCHITECTURES=89 \
                                          -DGGML_RPC=ON \
                                          -DLLAMA_HIP_UMA=ON \
                                          -DAMDGPU_TARGETS="gfx1030;gfx1031;gfx1151;gfx1201" \
                                          -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \
                                          -DGGML_BACKEND_DL=ON \
                                          -DGGML_NATIVE=OFF \
                                          -DCMAKE_BUILD_TYPE=Release \
                                       && cmake --build build -j$(nproc) \
                                       && cmake --install build
                                      

                                      说明:关键点是查好自己显卡的代号,然后正确设置CMAKE_CUDA_ARCHITECTURES,AMDGPU_TARGETS这几个宏。然后编译成功,用llama-cli --list-devices命令能看到自己的卡就说明成功了:

                                      fred@ai395:~$ llama-cli --list-devices
                                      ......
                                      Available devices:
                                        CUDA0: NVIDIA GeForce RTX 4090 (48508 MiB, 558 MiB free)
                                        ROCm0: Radeon 8060S Graphics (126976 MiB, 99084 MiB free)
                                        ROCm1: AMD Radeon AI PRO R9700 (32624 MiB, 32556 MiB free)
                                        Vulkan0: NVIDIA GeForce RTX 4090 (49386 MiB, 782 MiB free)
                                        Vulkan1: AMD Radeon AI PRO R9700 (RADV GFX1201) (32624 MiB, 32566 MiB free)
                                        Vulkan2: Radeon 8060S Graphics (RADV GFX1151) (127488 MiB, 111400 MiB free)
                                      

                                      vLLM在N卡单跑Qwen3.6 27B Q6大模型的命令行:

                                      export MODEL=/home/fred/llama-models/QuantTrio/Qwen3.6-27B-AWQ-6Bit
                                      export SERVED_MODEL_NAME=Qwen3.6-27B-vLLM
                                      export DOCKER_IMG=vllm/vllm-openai:latest
                                      export HOST_PORT=8000
                                      
                                      podman run --name ${SERVED_MODEL_NAME} --device nvidia.com/gpu=all \
                                          -v /tmp:/workspace \
                                          -v $MODEL:$MODEL \
                                          --env "HF_TOKEN=$HF_TOKEN" \
                                          -p 8000:8000 \
                                          --ipc=host \
                                          $DOCKER_IMG $MODEL \
                                          --max-model-len 200000 \
                                          --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' \
                                          --kv-cache-dtype fp8 \
                                          --tensor-parallel-size 1 \
                                          --enable-prefix-caching \
                                          --max-num-batched-tokens 8192 \
                                          --max-num-seqs 2 \
                                          --served-model-name ${SERVED_MODEL_NAME} \
                                          --enable-auto-tool-choice \
                                          --reasoning-parser qwen3 \
                                          --tool-call-parser qwen3_coder \
                                          --gpu-memory-utilization 0.9 \
                                          --host 0.0.0.0 \
                                          --port 8000
                                      

                                      其他说明

                                      • 模型可以全速跑,但前提是全量的模型必须能fit进某一个卡的VRAM,这样USB4不会造成降速。
                                      • 用llama.cpp的-ts选项跨卡跑模型,可以充分利用各卡的显存,由于USB4的时延比PCIE高,所以性能稍有损失,但不大,因为跨卡数据交换量不大且交换并不频繁。
                                      • vLLM不可跨A卡和N卡跑Tensor Parallel,只能跨多个A卡和多个N卡(因为底层的PyTorch只能支持一个版本)。
                                      • 我在llama.cpp和vLLM前端顶了一个可以自动切换模型的代理工具llama-swap,定义好之后用起来是很方便的。
                                      • 操作系统是Fedora Linux 43,驱动跟着社区更新就行(时不时的dnf update一下)。
                                      • 要懂点Linux,不然不要这么玩,还是要懂些技术才能搞定的。

                                      秀完了
                                      这一套东西,加起来还是得5万左右。现在AI MAX 395又涨价了,可能现在得5万5左右了。目前还只是纯玩,平时实在没时间琢磨怎么用它赚钱。

                                      FredF 离线
                                      FredF 离线
                                      Fred
                                      编写于 最后由 编辑
                                      #36

                                      来补些图:
                                      图1:注意看,在下面一层有一个关键设备:大疆POWER 1000。当成一个UPS来用,都花了这么多小钱钱,买了卡买了机器,不要吝啬把电源配得保险一些,别因为电源闪断,或者电压不稳或者突然断电,烧了卡之后还要找修显卡的张哥,就麻烦大了。
                                      替代文字

                                      图2:4090显卡,以及狗东999的显卡坞,USB4和Ocuulink双接口,自带800w电源,很不错。但两个特别提醒:

                                      1. 不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误:它的雷电UUID好像是固定的,没法改,每个显卡坞都是一样的UUID。因此在Linux下,只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞,但第二个始终不识别,这个问题当时折腾我好久。最后买了退,退了换,最后换了品牌,有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
                                      2. 4090和R9700,都是12PIN+4PIN的PCI-E电源线,这个显卡坞不带这种线,只带3个8PIN线,需要自己买转接,或者显卡如果带也行。
                                        替代文字

                                      图3:霸气的绿联显卡坞,自带850W金牌电源,自带12PIN+4PIN,自带8PIN,通吃一切显卡。缺点是不便宜啊,显卡坞2000+的就不算便宜了:
                                      替代文字

                                      图4:颜值在线的R9700,这卡是真好看。但它在显卡坞上有个毛病要注意:如果主机不开机,它的风扇会狂转。
                                      替代文字

                                      图5图6:主机AI MAX 395,零刻的128G版本,刚去查了一下狗东,狗日的涨价到21000了!我当时买的时候14000。后面带2个10G网口,2个USB4 type-c,前置带指纹解锁(Windows才能用)。我插了2个显卡坞,都是type-c,后面看着也不拥挤,还好。我这个机器是Linux无头服务器,也不用它打游戏啥的,因此随意插了一个hdmi的线到显示器。干干净净的,不挤。
                                      替代文字
                                      替代文字

                                      总结一下几个坑:

                                      1. 不要买2个同样型号的狗东999显卡坞
                                      2. R9700外置,如果主机不开,风扇会狂转,此时只能自己去关显卡坞的电源
                                      3. 尽量上个UPS,对你的几万块的资产稍微好点
                                      terryT 张老师张 2 条回复 最后回复
                                      3
                                      • FredF Fred

                                        来补些图:
                                        图1:注意看,在下面一层有一个关键设备:大疆POWER 1000。当成一个UPS来用,都花了这么多小钱钱,买了卡买了机器,不要吝啬把电源配得保险一些,别因为电源闪断,或者电压不稳或者突然断电,烧了卡之后还要找修显卡的张哥,就麻烦大了。
                                        替代文字

                                        图2:4090显卡,以及狗东999的显卡坞,USB4和Ocuulink双接口,自带800w电源,很不错。但两个特别提醒:

                                        1. 不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误:它的雷电UUID好像是固定的,没法改,每个显卡坞都是一样的UUID。因此在Linux下,只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞,但第二个始终不识别,这个问题当时折腾我好久。最后买了退,退了换,最后换了品牌,有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
                                        2. 4090和R9700,都是12PIN+4PIN的PCI-E电源线,这个显卡坞不带这种线,只带3个8PIN线,需要自己买转接,或者显卡如果带也行。
                                          替代文字

                                        图3:霸气的绿联显卡坞,自带850W金牌电源,自带12PIN+4PIN,自带8PIN,通吃一切显卡。缺点是不便宜啊,显卡坞2000+的就不算便宜了:
                                        替代文字

                                        图4:颜值在线的R9700,这卡是真好看。但它在显卡坞上有个毛病要注意:如果主机不开机,它的风扇会狂转。
                                        替代文字

                                        图5图6:主机AI MAX 395,零刻的128G版本,刚去查了一下狗东,狗日的涨价到21000了!我当时买的时候14000。后面带2个10G网口,2个USB4 type-c,前置带指纹解锁(Windows才能用)。我插了2个显卡坞,都是type-c,后面看着也不拥挤,还好。我这个机器是Linux无头服务器,也不用它打游戏啥的,因此随意插了一个hdmi的线到显示器。干干净净的,不挤。
                                        替代文字
                                        替代文字

                                        总结一下几个坑:

                                        1. 不要买2个同样型号的狗东999显卡坞
                                        2. R9700外置,如果主机不开,风扇会狂转,此时只能自己去关显卡坞的电源
                                        3. 尽量上个UPS,对你的几万块的资产稍微好点
                                        terryT 离线
                                        terryT 离线
                                        terry
                                        编写于 最后由 编辑
                                        #37

                                        @Fred 抄作业的材料凑足了,又能水一集。

                                        FredF 1 条回复 最后回复
                                        0
                                        • FredF 离线
                                          FredF 离线
                                          Fred
                                          编写于 最后由 编辑
                                          #38

                                          再补,llama.cpp单卡命令行。
                                          743adb22-7fbe-4fa4-b2fe-f9edafd884f2-image.jpeg
                                          和分卡命令行:
                                          151a7009-e0de-4cdc-8741-4de75dbe0373-image.jpeg
                                          vllm命令行:
                                          f1b756bf-c403-465e-9edf-29b6e307492b-image.jpeg

                                          1 条回复 最后回复
                                          1

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组