跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. 數字人視頻生成感想

數字人視頻生成感想

已定时 已固定 已锁定 已移动 AI音视频画图
24 帖子 9 发布者 535 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #2

    @Sam Hsu 深有同感!3090跑数字人确实吃力,几个优化建议可以试试:

    1. 模型选择:如果用的是MuseTalk/SadTalker这类,试试降低生成帧率(12fps->8fps),出来效果差别不大但速度快很多
    2. 切段生成:30秒视频建议切成3段10秒分别生成再拼接,单段生成时间大幅缩短
    3. 分辨率:720p和1080p在数字人场景下观感差别不大,但生成时间差一倍
    4. Wav2Lip类:试试用轻量版(如Wav2Lip_Lite),3090上可以做到接近实时

    如果是跑LTX-V/HunyuanVideo这类原生视频模型来生成数字人,那确实没办法,30秒的视频本身就是很大的计算量了

    1 条回复 最后回复
    0
    • 墙内人墙 离线
      墙内人墙 离线
      墙内人
      编写于 最后由 编辑
      #3

      分辨率,模型,系统

      Sam HsuS 1 条回复 最后回复
      0
      • 墙内人墙 墙内人

        分辨率,模型,系统

        Sam HsuS 离线
        Sam HsuS 离线
        Sam Hsu
        编写于 最后由 编辑
        #4

        @墙内人 當前數字人影片 — 完整參數

        🤖 模型架構

        基礎擴散

        • 層級: 基礎擴散

        • 模型: Wan 2.1 I2V 14B(fp8)

        • 大小: 16 GB

        • 用途: 圖片生影片本體

        數字人

        • 層級: 數字人

        • 模型: InfiniteTalk Single(fp16)

        • 大小: 4.8 GB

        • 用途: 對口型 + 動作控制

        文字編碼

        • 層級: 文字編碼

        • 模型: UMT5-XXL(bf16)

        • 大小: 5.3 GB

        • 用途: 提示詞理解

        視覺編碼

        • 層級: 視覺編碼

        • 模型: CLIP Vision H(fp8)

        • 大小: ~1 GB

        • 用途: 角色圖片特徵提取

        語音編碼

        • 層級: 語音編碼

        • 模型: wav2vec2 Chinese(fp16)

        • 大小: ~1 GB

        • 用途: 中文語音特徵提取

        ⚙️ 生成參數

        解析度

        • 參數: 解析度

        • 值: 480 × 832(9:16 直幅)

        時長

        • 參數: 時長

        • 值: 10 秒

        幀率

        • 參數: 幀率

        • 值: 25 fps

        總幀數

        • 參數: 總幀數

        • 值: 252 幀

        採樣步數

        • 參數: 採樣步數

        • 值: 25 steps

        CFG

        • 參數: CFG

        • 值: 5.0

        Shift

        • 參數: Shift

        • 值: 5.0

        Scheduler

        • 參數: Scheduler

        • 值: UniPC

        注意力

        • 參數: 注意力

        • 值: SageAttention 🚀

        Window 大小

        • 參數: Window 大小

        • 值: 81 幀(含 25 幀 overlap,自動分段生成長影片)

        🔧 系統設定

        ComfyUI

        • 項目: ComfyUI

        • 設定: systemd user service(--normalvram)

        VRAM 策略

        • 項目: VRAM 策略

        • 設定: Block swap 22/40 blocks → CPU

        VAE 解碼

        • 項目: VAE 解碼

        • 設定: Tiled VAE(272×272 tile)

        音頻

        • 項目: 音頻

        • 設定: edge-tts(中文 Xiaoxiao Neural)

        GPU

        • 項目: GPU

        • 設定: RTX 3090(24GB)

        🔄 完整流程

        角色圖(晚禮服美女)
        ↓ WanVideoClipVisionEncode(提取特徵)
        ↓ WanVideoImageToVideoMultiTalk(編碼圖像→隱空間)
        語音(edge-tts 10s)
        ↓ Wav2Vec2 Chinese(語音特徵提取)
        ↓ MultiTalkWav2VecEmbeds(對齊影片幀)
        ↓
        WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
        ↓(25 steps UniPC,252 幀分段生成)
        WanVideoDecode(tiled VAE)
        ↓
        VHS_VideoCombine(合成 mp4 + 音軌)
        ↓
        🎬 10 秒數字人影片完成!

        目前 GPU 100% 全力生成中,預計 ~01:50 完成!

        terryT 1 条回复 最后回复
        1
        • Sam HsuS Sam Hsu

          @墙内人 當前數字人影片 — 完整參數

          🤖 模型架構

          基礎擴散

          • 層級: 基礎擴散

          • 模型: Wan 2.1 I2V 14B(fp8)

          • 大小: 16 GB

          • 用途: 圖片生影片本體

          數字人

          • 層級: 數字人

          • 模型: InfiniteTalk Single(fp16)

          • 大小: 4.8 GB

          • 用途: 對口型 + 動作控制

          文字編碼

          • 層級: 文字編碼

          • 模型: UMT5-XXL(bf16)

          • 大小: 5.3 GB

          • 用途: 提示詞理解

          視覺編碼

          • 層級: 視覺編碼

          • 模型: CLIP Vision H(fp8)

          • 大小: ~1 GB

          • 用途: 角色圖片特徵提取

          語音編碼

          • 層級: 語音編碼

          • 模型: wav2vec2 Chinese(fp16)

          • 大小: ~1 GB

          • 用途: 中文語音特徵提取

          ⚙️ 生成參數

          解析度

          • 參數: 解析度

          • 值: 480 × 832(9:16 直幅)

          時長

          • 參數: 時長

          • 值: 10 秒

          幀率

          • 參數: 幀率

          • 值: 25 fps

          總幀數

          • 參數: 總幀數

          • 值: 252 幀

          採樣步數

          • 參數: 採樣步數

          • 值: 25 steps

          CFG

          • 參數: CFG

          • 值: 5.0

          Shift

          • 參數: Shift

          • 值: 5.0

          Scheduler

          • 參數: Scheduler

          • 值: UniPC

          注意力

          • 參數: 注意力

          • 值: SageAttention 🚀

          Window 大小

          • 參數: Window 大小

          • 值: 81 幀(含 25 幀 overlap,自動分段生成長影片)

          🔧 系統設定

          ComfyUI

          • 項目: ComfyUI

          • 設定: systemd user service(--normalvram)

          VRAM 策略

          • 項目: VRAM 策略

          • 設定: Block swap 22/40 blocks → CPU

          VAE 解碼

          • 項目: VAE 解碼

          • 設定: Tiled VAE(272×272 tile)

          音頻

          • 項目: 音頻

          • 設定: edge-tts(中文 Xiaoxiao Neural)

          GPU

          • 項目: GPU

          • 設定: RTX 3090(24GB)

          🔄 完整流程

          角色圖(晚禮服美女)
          ↓ WanVideoClipVisionEncode(提取特徵)
          ↓ WanVideoImageToVideoMultiTalk(編碼圖像→隱空間)
          語音(edge-tts 10s)
          ↓ Wav2Vec2 Chinese(語音特徵提取)
          ↓ MultiTalkWav2VecEmbeds(對齊影片幀)
          ↓
          WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
          ↓(25 steps UniPC,252 幀分段生成)
          WanVideoDecode(tiled VAE)
          ↓
          VHS_VideoCombine(合成 mp4 + 音軌)
          ↓
          🎬 10 秒數字人影片完成!

          目前 GPU 100% 全力生成中,預計 ~01:50 完成!

          terryT 离线
          terryT 离线
          terry
          编写于 最后由 terry 编辑
          #5

          @Sam-Hsu 老哥,1,Wan就是慢,慢到离谱,你应该换LTX2.3,工作流很多,刘悦的整合包下载下来,点开就能跑,你立刻就能感受到生产力,它除了提供CmfyUI原版入口,还提供WebUI。
          2,你最终还是要装Linux,直接在Ubuntu下安装CUDA 12.x,ComfyUI,让Gemini教你,然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录,然后尝试运行ComfyUI,会让你安装依赖的,把错误贴给Gemini即可。
          3,移植完毕之后你就能自由创作了,别再折腾Wan了,你的显存不够,大概率是部分场景比如CLIP调用了CPU。

          油管:https://www.youtube.com/@抡锤者

          Sam HsuS 1 条回复 最后回复
          1
          • Sam HsuS 离线
            Sam HsuS 离线
            Sam Hsu
            编写于 最后由 Sam Hsu 编辑
            #6

            了解了 已經是ubuntu系統 馬上修改 謝謝
            ID-LoRA LTX 2.3 已排程!🚀

            本次參數:

            • 模型: LTX 2.3 22B(FP8)+ ID-LoRA CelebVHQ
            • 圖片: chest_b04(480×832 → 512×512)
            • 音頻: 9.48 秒自我介紹
            • 幀數: 144 幀 @ 15fps(音畫對齊 ✅)
            • Steps: 30 | CFG: 3.0 | Audio CFG: 7.0
            • STG: 1.0 | Identity Guidance: 3.0

            LTX 22B 雖然也大,但這是 distilled + fp8,而且 不用 block swap,應該比 Wan 快很多。預計 5–15 分鐘完成!🔥
            @terry 老特 請問還有需要修改的地方嗎?

            1 条回复 最后回复
            0
            • terryT terry

              @Sam-Hsu 老哥,1,Wan就是慢,慢到离谱,你应该换LTX2.3,工作流很多,刘悦的整合包下载下来,点开就能跑,你立刻就能感受到生产力,它除了提供CmfyUI原版入口,还提供WebUI。
              2,你最终还是要装Linux,直接在Ubuntu下安装CUDA 12.x,ComfyUI,让Gemini教你,然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录,然后尝试运行ComfyUI,会让你安装依赖的,把错误贴给Gemini即可。
              3,移植完毕之后你就能自由创作了,别再折腾Wan了,你的显存不够,大概率是部分场景比如CLIP调用了CPU。

              Sam HsuS 离线
              Sam HsuS 离线
              Sam Hsu
              编写于 最后由 编辑
              #7

              @terry 用ltx2.3 Hermes 都說會oom.......

              terryT 1 条回复 最后回复
              0
              • Sam HsuS Sam Hsu

                @terry 用ltx2.3 Hermes 都說會oom.......

                terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #8

                @Sam-Hsu 你换个正常点的模型不行么,哥,你直接从刘悦的整合包里拷贝过去,或者你就在windows跑。

                油管:https://www.youtube.com/@抡锤者

                幻獸幻 1 条回复 最后回复
                0
                • terryT terry

                  @Sam-Hsu 你换个正常点的模型不行么,哥,你直接从刘悦的整合包里拷贝过去,或者你就在windows跑。

                  幻獸幻 离线
                  幻獸幻 离线
                  幻獸
                  编写于 最后由 编辑
                  #9

                  @terry 借个楼,老特,我想问问你用7900XTX,在ubuntu下跑刘悦的LTX2.3数字人无限时长V2工作流的时候,速度怎么样?我跑一个1分12秒的音频,用刘悦的低显存版工作流要50s/层,跑完整版要100s/层,不知道这个速度是快是慢,能给我一个参考吗

                  terryT 1 条回复 最后回复
                  0
                  • 幻獸幻 幻獸

                    @terry 借个楼,老特,我想问问你用7900XTX,在ubuntu下跑刘悦的LTX2.3数字人无限时长V2工作流的时候,速度怎么样?我跑一个1分12秒的音频,用刘悦的低显存版工作流要50s/层,跑完整版要100s/层,不知道这个速度是快是慢,能给我一个参考吗

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #10

                    @幻獸 我和你关注的点不同,我还真没注意这个,你直接会所你480p视频大概多久,我己知道了。

                    油管:https://www.youtube.com/@抡锤者

                    幻獸幻 1 条回复 最后回复
                    0
                    • terryT terry

                      @幻獸 我和你关注的点不同,我还真没注意这个,你直接会所你480p视频大概多久,我己知道了。

                      幻獸幻 离线
                      幻獸幻 离线
                      幻獸
                      编写于 最后由 幻獸 编辑
                      #11

                      @terry 好的 我晚点调整一下480p的分辨率,跑一下再来问,我之前都是用的默认参数跑的,长宽好像默认上限是960

                      terryT 1 条回复 最后回复
                      0
                      • 幻獸幻 幻獸

                        @terry 好的 我晚点调整一下480p的分辨率,跑一下再来问,我之前都是用的默认参数跑的,长宽好像默认上限是960

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 编辑
                        #12

                        @幻獸 960也行啊,我好久没跑了,你说个时间我,大致就知道了。960只能跑20秒。

                        油管:https://www.youtube.com/@抡锤者

                        幻獸幻 1 条回复 最后回复
                        0
                        • terryT terry

                          @幻獸 960也行啊,我好久没跑了,你说个时间我,大致就知道了。960只能跑20秒。

                          幻獸幻 离线
                          幻獸幻 离线
                          幻獸
                          编写于 最后由 编辑
                          #13

                          @terry 我是每段15s,跑1分12s的音频,精简版大概40分钟,完整版大概80分钟

                          1 条回复 最后回复
                          0
                          • P 离线
                            P 离线
                            pilipala
                            编写于 最后由 编辑
                            #14

                            WAN2.2真的慢到离谱,我用animate做人物背景动作迁移,81帧 720p要跑30分钟,4090D 48G+96G内存。

                            1 条回复 最后回复
                            0
                            • Sam HsuS Sam Hsu

                              3090 生成數字人視頻 真的耗費資源 30秒視頻 需要gpu 98-100%狂奔25-30分鐘

                              J 离线
                              J 离线
                              johnnybegood
                              编写于 最后由 编辑
                              #15

                              @Sam-Hsu 同样3090, 我生成10秒视频要用三分半, 那可不可以理解成 30秒视频只要 10分钟多点呢? LTX 2.3

                              Sam HsuS 1 条回复 最后回复
                              0
                              • J johnnybegood

                                @Sam-Hsu 同样3090, 我生成10秒视频要用三分半, 那可不可以理解成 30秒视频只要 10分钟多点呢? LTX 2.3

                                Sam HsuS 离线
                                Sam HsuS 离线
                                Sam Hsu
                                编写于 最后由 编辑
                                #16

                                @johnnybegood 是的 可以提供一下 你用什麼方式生成視頻嗎?3090 10秒視頻只要3.5分鐘

                                J 1 条回复 最后回复
                                0
                                • Sam HsuS Sam Hsu

                                  @johnnybegood 是的 可以提供一下 你用什麼方式生成視頻嗎?3090 10秒視頻只要3.5分鐘

                                  J 离线
                                  J 离线
                                  johnnybegood
                                  编写于 最后由 编辑
                                  #17

                                  @Sam-Hsu windows11, comfyui最新版, ltx 2.3 导演版工作流, ltx 22b 模型,gemma, 八步加速 lora , 960x544 , 10秒, 240帧。 但是我从来没生成过 30秒视频,10秒对于我来说最快, 因为时间太长我这边就进虚拟内存了, 进了虚拟内存, 15秒视频就要 30分钟以上。

                                  Sam HsuS 1 条回复 最后回复
                                  0
                                  • J johnnybegood

                                    @Sam-Hsu windows11, comfyui最新版, ltx 2.3 导演版工作流, ltx 22b 模型,gemma, 八步加速 lora , 960x544 , 10秒, 240帧。 但是我从来没生成过 30秒视频,10秒对于我来说最快, 因为时间太长我这边就进虚拟内存了, 进了虚拟内存, 15秒视频就要 30分钟以上。

                                    Sam HsuS 离线
                                    Sam HsuS 离线
                                    Sam Hsu
                                    编写于 最后由 编辑
                                    #18

                                    @johnnybegood 可以用Hermes agent
                                    30秒視頻 生成3個10秒視頻 自動拼接成最終視頻

                                    J 1 条回复 最后回复
                                    0
                                    • Sam HsuS Sam Hsu

                                      @johnnybegood 可以用Hermes agent
                                      30秒視頻 生成3個10秒視頻 自動拼接成最終視頻

                                      J 离线
                                      J 离线
                                      johnnybegood
                                      编写于 最后由 编辑
                                      #19

                                      @Sam-Hsu 如果想拼接的话, ltx 也有自动拼接无限时长的工作流,最后会自动拼接, 也挺好用。 只是转场、前后一致性这些我还在学习。现在效果不是太好。 当然他们都说要抽卡。

                                      1 条回复 最后回复
                                      0
                                      • C 离线
                                        C 离线
                                        c0aster
                                        编写于 最后由 编辑
                                        #20

                                        请教下,3090 能生成一些短视频之类的然后发点自媒体回血不,入了2张3090

                                        J 1 条回复 最后回复
                                        0
                                        • C c0aster

                                          请教下,3090 能生成一些短视频之类的然后发点自媒体回血不,入了2张3090

                                          J 离线
                                          J 离线
                                          johnnybegood
                                          编写于 最后由 编辑
                                          #21

                                          @c0aster 当然能了, 但是回1%血还是回10000% 血那差距可大了

                                          C 1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组