跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. ubuntu26.04下7900xtx跑comfyui工作流阶段总结

ubuntu26.04下7900xtx跑comfyui工作流阶段总结

已定时 已固定 已锁定 已移动 AI音视频画图
28 帖子 12 发布者 1.6k 浏览 13 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW 离线
    williamlouisW 离线
    williamlouis
    编写于 最后由 编辑
    #15

    不错的帖子。这个可以直接跑起来了。实用性嘎嘎高。谢谢

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    1 条回复 最后回复
    -1
    • terryT terry 固定了该主题
    • W 离线
      W 离线
      weidong
      编写于 最后由 编辑
      #16

      今天把数字人也弄好了,原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
      为了适配7900xtx的显存,换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型,clip用CPU来计算
      不过感觉有点慢4秒钟,40分钟,还得优化
      LTX 2.3 数字人对口型 — 首跑成功总结

      🔧 软硬件环境

      CPU

      • 项目: CPU

      • 详情: Intel i5-12400F

      GPU

      • 项目: GPU

      • 详情: AMD Radeon RX 7900 XTX(24.6GB VRAM)

      内存

      • 项目: 内存

      • 详情: 45GB DDR4

      系统

      • 项目: 系统

      • 详情: Linux 7.0.0-15-generic

      深度学习

      • 项目: 深度学习

      • 详情: PyTorch 2.12.0 + ROCm 7.2(gfx1100)

      ComfyUI

      • 项目: ComfyUI

      • 详情: v0.20.1 + frontend 1.42.15

      启动参数

      • 项目: 启动参数

      • 详情: --force-upcast-attention --preview-method none

      📦 模型

      UNet

      • 模型: UNet

      • 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf

      • 大小: ~14GB

      Video VAE

      • 模型: Video VAE

      • 文件: LTX23_video_vae_bf16.safetensors

      • 大小: 1.4GB

      Audio VAE

      • 模型: Audio VAE

      • 文件: LTX23_audio_vae_bf16.safetensors

      • 大小: 693MB

      CLIP文本

      • 模型: CLIP文本

      • 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors

      • 大小: 共~7.5GB

      人声分离

      • 模型: 人声分离

      • 文件: MelBandRoformer_fp16.safetensors

      • 大小: ~

      • CLIP 放在 device=cpu,省 6.8GB VRAM ✅

      📐 工作流 & 参数

      核心节点链:
      LoadImage(4000×6000)
      → ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
      → LTXVImgToVideoInplace(strength=0.7)
      → LTXVConcatAVLatent(视频latent + 音频latent)

      LoadAudio(spk_1778665696.wav, 22kHz单声道)
      → TrimAudioDuration(4.0s)
      → [LazySwitch1way] → MelBandRoFormer(人声分离)
      → LTXVAudioVAEEncode → SetLatentNoiseMask

      合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
      → VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
      关键参数:

      Int(98)=duration

      • 参数: Int(98)=duration

      • 值: 4(当前)

      Int(104)=fps

      • 参数: Int(104)=fps

      • 值: 30

      帧数公式

      • 参数: 帧数公式

      • 值: a×b+1 = 4×30+1 = 121帧

      时长

      • 参数: 时长

      • 值: 4.033秒

      分辨率参数: 分辨率

      • 值: 896×1280(2:3竖屏)

      采样器

      • 参数: 采样器

      • 值: euler_ancestral_cfg_pp

      步数

      • 参数: 步数

      • 值: 8步

      CFG

      • 参数: CFG

      • 值: 1.0

      NAG

      • 参数: NAG

      • 值: scale=11, alpha=0.25, tau=2.5

      Sigmas

      • 参数: Sigmas

      • 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0

      Prompt

      • 参数: Prompt

      • 值: "美女对着镜头说话"

      VHS pingpong

      • 参数: VHS pingpong

      terryT 1 条回复 最后回复
      1
      • W weidong

        今天把数字人也弄好了,原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
        为了适配7900xtx的显存,换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型,clip用CPU来计算
        不过感觉有点慢4秒钟,40分钟,还得优化
        LTX 2.3 数字人对口型 — 首跑成功总结

        🔧 软硬件环境

        CPU

        • 项目: CPU

        • 详情: Intel i5-12400F

        GPU

        • 项目: GPU

        • 详情: AMD Radeon RX 7900 XTX(24.6GB VRAM)

        内存

        • 项目: 内存

        • 详情: 45GB DDR4

        系统

        • 项目: 系统

        • 详情: Linux 7.0.0-15-generic

        深度学习

        • 项目: 深度学习

        • 详情: PyTorch 2.12.0 + ROCm 7.2(gfx1100)

        ComfyUI

        • 项目: ComfyUI

        • 详情: v0.20.1 + frontend 1.42.15

        启动参数

        • 项目: 启动参数

        • 详情: --force-upcast-attention --preview-method none

        📦 模型

        UNet

        • 模型: UNet

        • 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf

        • 大小: ~14GB

        Video VAE

        • 模型: Video VAE

        • 文件: LTX23_video_vae_bf16.safetensors

        • 大小: 1.4GB

        Audio VAE

        • 模型: Audio VAE

        • 文件: LTX23_audio_vae_bf16.safetensors

        • 大小: 693MB

        CLIP文本

        • 模型: CLIP文本

        • 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors

        • 大小: 共~7.5GB

        人声分离

        • 模型: 人声分离

        • 文件: MelBandRoformer_fp16.safetensors

        • 大小: ~

        • CLIP 放在 device=cpu,省 6.8GB VRAM ✅

        📐 工作流 & 参数

        核心节点链:
        LoadImage(4000×6000)
        → ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
        → LTXVImgToVideoInplace(strength=0.7)
        → LTXVConcatAVLatent(视频latent + 音频latent)

        LoadAudio(spk_1778665696.wav, 22kHz单声道)
        → TrimAudioDuration(4.0s)
        → [LazySwitch1way] → MelBandRoFormer(人声分离)
        → LTXVAudioVAEEncode → SetLatentNoiseMask

        合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
        → VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
        关键参数:

        Int(98)=duration

        • 参数: Int(98)=duration

        • 值: 4(当前)

        Int(104)=fps

        • 参数: Int(104)=fps

        • 值: 30

        帧数公式

        • 参数: 帧数公式

        • 值: a×b+1 = 4×30+1 = 121帧

        时长

        • 参数: 时长

        • 值: 4.033秒

        分辨率参数: 分辨率

        • 值: 896×1280(2:3竖屏)

        采样器

        • 参数: 采样器

        • 值: euler_ancestral_cfg_pp

        步数

        • 参数: 步数

        • 值: 8步

        CFG

        • 参数: CFG

        • 值: 1.0

        NAG

        • 参数: NAG

        • 值: scale=11, alpha=0.25, tau=2.5

        Sigmas

        • 参数: Sigmas

        • 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0

        Prompt

        • 参数: Prompt

        • 值: "美女对着镜头说话"

        VHS pingpong

        • 参数: VHS pingpong

        terryT 在线
        terryT 在线
        terry
        超级版主
        编写于 最后由 编辑
        #17

        @weidong 你这速度,4秒钟40分钟也太慢了,你可以尝试降低分辨率,用960*544,足够了。

        油管:https://www.youtube.com/@抡锤者

        W 1 条回复 最后回复
        0
        • terryT terry

          @weidong 你这速度,4秒钟40分钟也太慢了,你可以尝试降低分辨率,用960*544,足够了。

          W 离线
          W 离线
          weidong
          编写于 最后由 编辑
          #18

          @terry 我现在这个应该是VAE解码问题,不知道为啥,40分钟里面有35分钟是在VAE解码的,GPU100%,显存54%,cpu17%,ram53%,VAE解码由fb16换到fp16也一样慢,而且还黑屏,锤哥有碰到过这样的问题吗

          1 条回复 最后回复
          0
          • W 离线
            W 离线
            weidong
            编写于 最后由 编辑
            #19

            把VAE节点换了,现在快很多了,8秒20分钟

            terryT P 2 条回复 最后回复
            0
            • W weidong

              把VAE节点换了,现在快很多了,8秒20分钟

              terryT 在线
              terryT 在线
              terry
              超级版主
              编写于 最后由 编辑
              #20

              @weidong 我还是建议你降低分辨率,因为你选的分辨率太高,意义不大,你的卡显存很紧张,这种生产速度毫无意义,完全不具备量产价值。你分辨率降低到960*544,后期放大一样的。

              油管:https://www.youtube.com/@抡锤者

              W M 2 条回复 最后回复
              1
              • terryT terry

                @weidong 我还是建议你降低分辨率,因为你选的分辨率太高,意义不大,你的卡显存很紧张,这种生产速度毫无意义,完全不具备量产价值。你分辨率降低到960*544,后期放大一样的。

                W 离线
                W 离线
                weidong
                编写于 最后由 编辑
                #21

                @terry 试了下快很多,出来效果差不多

                1 条回复 最后回复
                0
                • 陈鸿陈 离线
                  陈鸿陈 离线
                  陈鸿
                  编写于 最后由 编辑
                  #22

                  大佬空了发下json 谢谢了。 我周末用V4 PRO 折腾了 ,LTX2.3只能生视频。没有声音。

                  1 条回复 最后回复
                  0
                  • terryT terry

                    @weidong 我还是建议你降低分辨率,因为你选的分辨率太高,意义不大,你的卡显存很紧张,这种生产速度毫无意义,完全不具备量产价值。你分辨率降低到960*544,后期放大一样的。

                    M 离线
                    M 离线
                    Miraco
                    编写于 最后由 编辑
                    #23

                    @terry 说:

                    @weidong 我还是建议你降低分辨率,因为你选的分辨率太高,意义不大,你的卡显存很紧张,这种生产速度毫无意义,完全不具备量产价值。你分辨率降低到960*544,后期放大一样的。

                    老特,后期放大有无教程?或者用什么软件之类的?谢谢

                    terryT 1 条回复 最后回复
                    0
                    • terryT 在线
                      terryT 在线
                      terry
                      超级版主
                      编写于 最后由 编辑
                      #24

                      这种节点很多啊,随便问AI找一个就行了,很多工作流就自带放大。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0
                      • 系统 取消固定了该主题
                      • nmgsjjgd vcdN 离线
                        nmgsjjgd vcdN 离线
                        nmgsjjgd vcd
                        编写于 最后由 terry 编辑
                        #25

                        交作业:全程让hermes部署,用的deepseek ,
                        截图 2026-06-02 12-43-28.png 截图 2026-06-02 12-44-05.png 截图 2026-06-02 12-43-28.png 截图 2026-06-02 12-44-05.png 截图 2026-06-02 12-44-17.png 截图 2026-06-02 12-44-29.png 截图 2026-06-02 12-44-40.png 截图 2026-06-02 12-44-56.png 截图 2026-06-02 12-45-07.png 截图 2026-06-02 12-45-19.png

                        1 条回复 最后回复
                        0
                        • M Miraco

                          @terry 说:

                          @weidong 我还是建议你降低分辨率,因为你选的分辨率太高,意义不大,你的卡显存很紧张,这种生产速度毫无意义,完全不具备量产价值。你分辨率降低到960*544,后期放大一样的。

                          老特,后期放大有无教程?或者用什么软件之类的?谢谢

                          terryT 在线
                          terryT 在线
                          terry
                          超级版主
                          编写于 最后由 编辑
                          #26

                          @Miraco 这问AI,多得是,我也没啥建议的,我不需要放大。但我跑过,都能用,效果见仁见智,要自己挑选下,不过底片一定要清晰,就是960*544起步,否则糊。

                          油管:https://www.youtube.com/@抡锤者

                          1 条回复 最后回复
                          0
                          • W weidong

                            把VAE节点换了,现在快很多了,8秒20分钟

                            P 离线
                            P 离线
                            Paulo0
                            编写于 最后由 编辑
                            #27

                            @weidong 说:

                            把VAE节点换了,现在快很多了,8秒20分钟

                            请问VAE节点换了什么?

                            1 条回复 最后回复
                            0
                            • P 离线
                              P 离线
                              Paulo0
                              编写于 最后由 编辑
                              #28

                              用telegram Hermes上下文是不是不在本地的?感觉telegram上Hermes长对话也很迅速.我Hermes本地跑qwen3.6 27b

                              1 条回复 最后回复
                              0

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 登录或注册以进行搜索。
                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组