跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
21 帖子 8 发布者 425 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #4

    @applejuice 双3090 NVLink 跑 vLLM 确实有几个坑,分享一下排查经验:

    vLLM + NVLink 的关键点

    vLLM 用 NCCL 做 Tensor Parallel 通信,NVLink 只要在 nvidia-smi topo -m 里能看到 NV4,NCCL 会自动走 NVLink,不需要手动配置。但有几个常见翻车点:

    1. --tensor-parallel-size 2 没加 — 不加这个参数就是单卡跑,NVLink 自然用不上
    2. Docker --shm-size 不够 — NCCL 需要共享内存做 buffer,推荐 --shm-size=16g,太小会报 NCCL 超时
    3. CUDA_VISIBLE_DEVICES 顺序问题 — NVLink 拓扑依赖 PCIe 插槽顺序,如果两张卡物理上是通过 NVLink 桥连的但 CUDA_VISIBLE_DEVICES 指定了非相邻的卡号,NCCL 可能不走 NVLink
    4. NCCL_NVLS_ENABLE=1 — 新版 vLLM(0.8.x+)有时需要这个环境变量来强制启用 NVLink 的 NVLS(NVLINK SHARP)协议

    建议调试步骤:

    1. 先裸机(不用 Docker)跑 vLLM,排除 Docker 的共享内存问题:python -m vllm.entrypoints.openai.api_server --model Qwen3.6-27B --tensor-parallel-size 2
    2. 如果报 NCCL 错误,加 export NCCL_DEBUG=INFO 看通信路径——输出里如果有 NVLink 字样说明走对了
    3. 还不行的话加 --enforce-eager 试试,关闭 CUDAGraph 有时能避开 NVLink 通信的 graph capture 问题

    不过说回来,你已经用 llama.cpp 跑得很好了(双卡 prefill 6k+ t/s 相当不错),vLLM 在双 3090 上的优势主要是 OpenAI 兼容 API 和更灵活的调度。如果不需要多用户并发或者 API 服务,llama.cpp 的推理速度其实够用了。

    1 条回复 最后回复
    0
    • A applejuice

      声明:这篇东西是叫AI 总结的

      交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

      GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
      模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
      引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
      KV cache:q8_0,上下文 153600
      开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

      测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
      prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
      782 | 708.8 | 59.2 | 34.7G | 440W
      6155 | 1285.9 | 58.5 | 34.8G | 436W
      24587 | 1249.5 | 54.6 | 34.8G | 441W
      98315 | 835.4 | 47.4 | 34.8G | 441W
      135017 | 694.2 | 43.2 | 34.8G | 444W

      解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
      显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
      prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
      双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
      功耗双卡合计稳定 ~440W

      一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
      现在还叫claude 解决vllm 然后测试

      rock shiR 离线
      rock shiR 离线
      rock shi
      编写于 最后由 编辑
      #5

      @applejuice prefill应该是最快的可以双卡同时算,后面就单卡了。感觉最大的优势还是48g,关注一波

      1 条回复 最后回复
      0
      • S 离线
        S 离线
        stakira
        编写于 最后由 编辑
        #6

        应该可以快很多,可以看一下我的双 3060 帖子

        1 条回复 最后回复
        0
        • V 离线
          V 离线
          vosrock
          编写于 最后由 vosrock 编辑
          #7

          应该还有空间,其实我单卡MTP=2跑到150K上下文都还有40TS左右,下降30%-35%,不过模型量化约等于Q4KS,而且你KV是q8的,这样长上下文改善的不单是速度,更重要的是精度,那些缩进错误,变量名出错的问题会少几次,这些它都会自己纠正,不像35B,API TOKEN就算是存在文件里当变量载入,都经常被截断,靠它自己,这道坎就很难迈过去

          1 条回复 最后回复
          0
          • V 离线
            V 离线
            vosrock
            编写于 最后由 编辑
            #8

            其实我有点想折腾一下TURBO3非对称KV量化,不知道有没有朋友试过

            1 条回复 最后回复
            0
            • A 离线
              A 离线
              applejuice
              编写于 最后由 applejuice 编辑
              #9

              我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

              现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
              kv Q8_0 216k context(还没试)
              prefill 800-900t/s
              全模态吞吐 40t/s
              也算可以用

              接下来玩下comfyUi

              nvlink 就有点浪费 多花了3000好像

              terryT V 2 条回复 最后回复
              0
              • A applejuice

                我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

                现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
                kv Q8_0 216k context(还没试)
                prefill 800-900t/s
                全模态吞吐 40t/s
                也算可以用

                接下来玩下comfyUi

                nvlink 就有点浪费 多花了3000好像

                terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #10

                @applejuice 速度差不多就别折腾了。

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                1
                • AresROCA 离线
                  AresROCA 离线
                  AresROC
                  编写于 最后由 AresROC 编辑
                  #11

                  以不含 NVLink 的 PCI 3.0x8 雙道作為對比。 Hermes 96k 上下文大約是 52~55 t/s - Power Limit 250w. So 500w Total, ~46GB VRAM.

                  cd343cb0-f491-4853-81f6-6b5573d14868-image.jpeg
                  91ca83bd-b9b1-4e6c-bdf2-b044bb522bd5-image.jpeg

                  python -m vllm.entrypoints.openai.api_server
                  --model ~/AiModel/Qwen3.6-27B-AWQ-QuantTrio
                  --gpu-memory-utilization 0.95
                  --max-model-len 98304
                  --enable-auto-tool-choice
                  --tool-call-parser hermes
                  --tensor-parallel-size 2
                  --host 0.0.0.0
                  --port 8000

                  1 条回复 最后回复
                  0
                  • D 离线
                    D 离线
                    davidwei0826
                    编写于 最后由 davidwei0826 编辑
                    #12

                    双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
                    我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
                    官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
                    num_speculative_tokens我测了2,3,4,5。效果上3最好。

                    启动脚本:

                    root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
                    #!/bin/bash
                    source /root/.bashrc
                    source /root/venv/bin/activate
                    # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
                    # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
                    #   TP: tensor-parallel size,默认 2
                    #   PP: pipeline-parallel size,默认 1
                    
                    set -e
                    
                    # ========== 参数 ==========
                    TP="${1:-${TP:-2}}"
                    PP="${2:-${PP:-1}}"
                    MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
                    PORT="${PORT:-8000}"
                    HOST="${HOST:-0.0.0.0}"
                    MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
                    GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
                    KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
                    TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
                    TOP_P="${TOP_P:-0.95}"
                    TOP_K="${TOP_K:-20}"
                    MIN_P="${MIN_P:-0.0}"
                    REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
                    
                    # speculative decoding
                    SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
                    
                    # 推理模板参数(关闭 thinking)
                    CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
                    
                    # ========== 环境变量 ==========
                    export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
                    export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
                    export VLLM_WORKER_MULTIPROC_METHOD=spawn
                    export NCCL_CUMEM_ENABLE=0
                    export NCCL_P2P_DISABLE=0
                    export VLLM_NO_USAGE_STATS=1
                    export VLLM_USE_FLASHINFER_SAMPLER=1
                    export OMP_NUM_THREADS=1
                    export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
                    
                    # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
                    # source /etc/club3090/detect_nvlink.sh
                    # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
                    
                    # ========== 构建命令 ==========
                    ARGS=(
                        --model "$MODEL_PATH"
                        --served-model-name qwen3.6-27b-autoround
                        --quantization auto_round
                        --dtype float16
                        --tensor-parallel-size "$TP"
                        --pipeline-parallel-size "$PP"
                        --max-model-len "$MAX_MODEL_LEN"
                        --gpu-memory-utilization "$GPU_MEM_UTIL"
                        --max-num-seqs 2
                        --max-num-batched-tokens 8192
                        --kv-cache-dtype "$KV_CACHE_DTYPE"
                        --trust-remote-code
                      #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                        --reasoning-parser qwen3
                        --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                        --enable-auto-tool-choice
                        --tool-call-parser qwen3_coder
                        --enable-prefix-caching
                        --enable-chunked-prefill
                        --disable-custom-all-reduce
                        --speculative-config "$SPECULATIVE_CONFIG"
                        --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                        --host "$HOST"
                        --port "$PORT"
                    )
                    
                    echo "=========================================="
                    echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
                    echo "=========================================="
                    echo "命令: vllm serve ${ARGS[*]}"
                    echo ""
                    
                    exec vllm serve "${ARGS[@]}"
                    deactivate
                    

                    690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

                    8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

                    A 1 条回复 最后回复
                    2
                    • D davidwei0826

                      双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
                      我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
                      官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
                      num_speculative_tokens我测了2,3,4,5。效果上3最好。

                      启动脚本:

                      root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
                      #!/bin/bash
                      source /root/.bashrc
                      source /root/venv/bin/activate
                      # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
                      # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
                      #   TP: tensor-parallel size,默认 2
                      #   PP: pipeline-parallel size,默认 1
                      
                      set -e
                      
                      # ========== 参数 ==========
                      TP="${1:-${TP:-2}}"
                      PP="${2:-${PP:-1}}"
                      MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
                      PORT="${PORT:-8000}"
                      HOST="${HOST:-0.0.0.0}"
                      MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
                      GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
                      KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
                      TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
                      TOP_P="${TOP_P:-0.95}"
                      TOP_K="${TOP_K:-20}"
                      MIN_P="${MIN_P:-0.0}"
                      REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
                      
                      # speculative decoding
                      SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
                      
                      # 推理模板参数(关闭 thinking)
                      CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
                      
                      # ========== 环境变量 ==========
                      export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
                      export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
                      export VLLM_WORKER_MULTIPROC_METHOD=spawn
                      export NCCL_CUMEM_ENABLE=0
                      export NCCL_P2P_DISABLE=0
                      export VLLM_NO_USAGE_STATS=1
                      export VLLM_USE_FLASHINFER_SAMPLER=1
                      export OMP_NUM_THREADS=1
                      export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
                      
                      # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
                      # source /etc/club3090/detect_nvlink.sh
                      # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
                      
                      # ========== 构建命令 ==========
                      ARGS=(
                          --model "$MODEL_PATH"
                          --served-model-name qwen3.6-27b-autoround
                          --quantization auto_round
                          --dtype float16
                          --tensor-parallel-size "$TP"
                          --pipeline-parallel-size "$PP"
                          --max-model-len "$MAX_MODEL_LEN"
                          --gpu-memory-utilization "$GPU_MEM_UTIL"
                          --max-num-seqs 2
                          --max-num-batched-tokens 8192
                          --kv-cache-dtype "$KV_CACHE_DTYPE"
                          --trust-remote-code
                        #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                          --reasoning-parser qwen3
                          --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                          --enable-auto-tool-choice
                          --tool-call-parser qwen3_coder
                          --enable-prefix-caching
                          --enable-chunked-prefill
                          --disable-custom-all-reduce
                          --speculative-config "$SPECULATIVE_CONFIG"
                          --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                          --host "$HOST"
                          --port "$PORT"
                      )
                      
                      echo "=========================================="
                      echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
                      echo "=========================================="
                      echo "命令: vllm serve ${ARGS[*]}"
                      echo ""
                      
                      exec vllm serve "${ARGS[@]}"
                      deactivate
                      

                      690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

                      8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

                      A 离线
                      A 离线
                      applejuice
                      编写于 最后由 applejuice 编辑
                      #13

                      @davidwei0826 这篇我机器还没到的时候已经看了 居然忘了我就相信AI 说不行

                      现在就叫claude 去设置

                      1 条回复 最后回复
                      0
                      • A 离线
                        A 离线
                        applejuice
                        编写于 最后由 applejuice 编辑
                        #14

                        可以了
                        用上nvlink
                        但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
                        我就不测试 文字模型 了 应该100t/s 没问题
                        比较奇怪的是 我没想到prefill 快了

                        GPU 限制 250w
                        e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

                        模型

                        Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
                        Multimodal ✅ vision (image input)
                        MTP heads Present but disabled (0% accept on GPTQ)
                        Native context 262,144 tokens
                        Engine vLLM v0.21.0

                        参数

                        --model /models/heretic-gptq-int4
                        --served-model-name qwen3.6-27b-heretic
                        --quantization gptq_marlin
                        --dtype float16
                        --tensor-parallel-size 2              # both 3090s, real NVLink usage
                        --max-model-len 262144                # 262K context
                        --gpu-memory-utilization 0.92
                        --max-num-seqs 2                      # 2 concurrent streams
                        --max-num-batched-tokens 8192
                        --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
                        --trust-remote-code
                        --reasoning-parser qwen3              # routes <think> → reasoning_content
                        --enable-auto-tool-choice
                        --tool-call-parser qwen3_coder        # native Qwen3 tool format
                        --enable-prefix-caching               # repeated prompts share KV
                        --enable-chunked-prefill              # long prefill doesn't block decode
                        --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
                        

                        测试

                        Metric Value
                        Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
                        Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
                        VRAM total ~43 GB / 48 GB
                        rock shiR 1 条回复 最后回复
                        3
                        • A applejuice

                          可以了
                          用上nvlink
                          但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
                          我就不测试 文字模型 了 应该100t/s 没问题
                          比较奇怪的是 我没想到prefill 快了

                          GPU 限制 250w
                          e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

                          模型

                          Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
                          Multimodal ✅ vision (image input)
                          MTP heads Present but disabled (0% accept on GPTQ)
                          Native context 262,144 tokens
                          Engine vLLM v0.21.0

                          参数

                          --model /models/heretic-gptq-int4
                          --served-model-name qwen3.6-27b-heretic
                          --quantization gptq_marlin
                          --dtype float16
                          --tensor-parallel-size 2              # both 3090s, real NVLink usage
                          --max-model-len 262144                # 262K context
                          --gpu-memory-utilization 0.92
                          --max-num-seqs 2                      # 2 concurrent streams
                          --max-num-batched-tokens 8192
                          --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
                          --trust-remote-code
                          --reasoning-parser qwen3              # routes <think> → reasoning_content
                          --enable-auto-tool-choice
                          --tool-call-parser qwen3_coder        # native Qwen3 tool format
                          --enable-prefix-caching               # repeated prompts share KV
                          --enable-chunked-prefill              # long prefill doesn't block decode
                          --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
                          

                          测试

                          Metric Value
                          Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
                          Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
                          VRAM total ~43 GB / 48 GB
                          rock shiR 离线
                          rock shiR 离线
                          rock shi
                          编写于 最后由 编辑
                          #15

                          @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                          A 1 条回复 最后回复
                          0
                          • rock shiR rock shi

                            @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                            A 离线
                            A 离线
                            applejuice
                            编写于 最后由 编辑
                            #16

                            @rock-shi 说:

                            @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                            够用了
                            先玩玩comfyui ✌

                            1 条回复 最后回复
                            0
                            • V 离线
                              V 离线
                              vosrock
                              编写于 最后由 编辑
                              #17

                              爽啊,速度另说,精度提高还是会舒服很多的

                              1 条回复 最后回复
                              0
                              • A applejuice

                                我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

                                现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
                                kv Q8_0 216k context(还没试)
                                prefill 800-900t/s
                                全模态吞吐 40t/s
                                也算可以用

                                接下来玩下comfyUi

                                nvlink 就有点浪费 多花了3000好像

                                V 离线
                                V 离线
                                vosrock
                                编写于 最后由 编辑
                                #18

                                @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                                27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                                rock shiR 1 条回复 最后回复
                                1
                                • V vosrock

                                  @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                                  27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                                  rock shiR 离线
                                  rock shiR 离线
                                  rock shi
                                  编写于 最后由 编辑
                                  #19

                                  @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                                  V 1 条回复 最后回复
                                  0
                                  • rock shiR rock shi

                                    @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                                    V 离线
                                    V 离线
                                    vosrock
                                    编写于 最后由 编辑
                                    #20

                                    @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                                    我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                                    rock shiR 1 条回复 最后回复
                                    0
                                    • V vosrock

                                      @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                                      我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                                      rock shiR 离线
                                      rock shiR 离线
                                      rock shi
                                      编写于 最后由 编辑
                                      #21

                                      @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。

                                      1 条回复 最后回复
                                      0

                                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                      有了你的建议,这篇帖子会更精彩哦 💗

                                      注册 登录
                                      回复
                                      • 在新帖中回复
                                      登录后回复
                                      • 从旧到新
                                      • 从新到旧
                                      • 最多赞同


                                      • 登录

                                      • 没有帐号? 注册

                                      • 登录或注册以进行搜索。
                                      • 第一个帖子
                                        最后一个帖子
                                      0
                                      • 版块
                                      • 最新
                                      • 标签
                                      • 热门
                                      • 用户
                                      • 群组