使用Ltx2.3 来换人唱星爷的烧鸡翼

imbiplaza ASUS

这几天研究用ltx2.3 来玩人脸替换，动作跟随，音频口型跟随,
发觉在ltx2.3 里，就算ltx2.3非常适合我这种要求快速出视频，vram又少的用户，然而并没有一个很稳的工作流，很多细节都必须要再优化，

官方的 controlnet 以depth 为主没dwpose也不是gguf，有些第三方以dwpose 为主，
有些做动作不做音频，有些做load video却不做auto frame,
有些做什么都做到完，唯独缺auto prompt enhanced...

我的需求load image, load video, auto 合成，就是这样简单。。

不断了解各个json的做法，不停使用codex去解译每一个流程，终于整合出一个 controlnet 以depth，dwpose ，自动音频，auto frame，auto prompt enhanced，多人、衣服、背景不会被污染，在5060ti 16gb内少过50s/it的自家制工作流，

最终效果（没抽卡，直接5段连续输出）：
https://www.youtube.com/shorts/M7WrKKvRC1Q

准备一张半身人照片
准备一段22秒的星爷唱的烧鸡翼视频

为了应付暂时vram不足的囧境，我使用adobe premier pro ，根据音色将视频分成5 段。。

Screenshot 2026-06-26 204328.png

把每一段输出成1个视频档案

Screenshot 2026-06-27 132152.png

在comfyui 根据我的工作流输出相关5段视频

Screenshot 2026-06-27 132210.png

使用audacity 输出视频原音
Screenshot 2026-06-27 131931.png

使用soulx singer 将人声和视频原音克隆
Screenshot 2026-06-27 131851.png

把这两个素材，（5段 comfyui 出来的视频 + 克隆音频）放入adobe premier pro 里面合成，mute 掉视频的声音，替换成人物克隆音频

Screenshot 2026-06-27 132004.png

视觉效果终于达到我想要的东西，马上叫 codex 写成py

Screenshot 2026-06-27 131741.png

terry

如果早点有这个工作流，用于做政治人物的搞笑视频提好的，现在对模仿名人声音有严格限制了。

imbiplaza ASUS

@terry 幸好我都是模仿身边的朋友为主，她拿我这个视频去分享，半天的点击率和分享率都不错

imbiplaza ASUS

新示范
how to clone Lee Ju-Eun to angellowee

moocher8745

感谢分享，受益匪浅，马上实践验证一下

imbiplaza ASUS

效果还满稳定的，但由于硬体配置不高，
所以每一次只能把原视频减成5s - 10s 处理一次：

moocher8745

我的机器是9800x3d处理器+32G DDR5+4090 48G，ubuntu下comfyui跑的时候虚拟内存必须设置64G，不然直接爆内存卡死，swap设置64G后才算能把你这工作流跑通，目前还在研究怎么调参数

imbiplaza ASUS

@moocher8745 最后关头才来OOM 简直哭死

Screenshot 2026-06-20 095650.png

moocher8745

抡锤者