使用Ltx2.3 来换人唱星爷的烧鸡翼
-
前文:
这几天研究用ltx2.3 来玩人脸替换,动作跟随,音频口型跟随,
发觉在ltx2.3 里,就算ltx2.3非常适合我这种要求快速出视频,vram又少的用户,然而并没有一个很稳的工作流,很多细节都必须要再优化,比如:
官方的 controlnet 以depth 为主没dwpose也不是gguf,有些第三方以dwpose 为主,
有些做动作不做音频,有些做load video却不做auto frame,
有些做什么都做到完,唯独缺auto prompt enhanced...要求:
我的需求load image, load video, auto 合成,就是这样简单。。
不断了解各个json的做法,不停使用codex去解译每一个流程,终于整合出一个 controlnet 以depth,dwpose ,自动音频,auto frame,auto prompt enhanced,多人、衣服、背景不会被污染,在5060ti 16gb内少过50s/it的自家制工作流,
LTX2.3_ICLora_Depth+Pose_imbi_with_Prompt_enhanced.json
找codex帮忙自作万能prompt:
positive prompt and negative prompt for dwpose and depth.txt示范档案素材mp4:
chow01.mp4
chow02.mp4
chow03.mp4
chow04.mp4
chow05.mp4最终效果(没抽卡,直接5段连续输出):
https://www.youtube.com/shorts/M7WrKKvRC1Q
开始
准备一张半身人照片
准备一段22秒的星爷唱的烧鸡翼视频为了应付暂时vram不足的囧境,我使用adobe premier pro ,根据音色将视频分成5 段。。

把每一段输出成1个视频档案

在comfyui 根据我的工作流输出相关5段视频

使用audacity 输出视频原音

使用soulx singer 将人声和视频原音克隆

把这两个素材,(5段 comfyui 出来的视频 + 克隆音频)放入adobe premier pro 里面合成,mute 掉视频的声音,替换成人物克隆音频

最终效果
https://youtube.com/shorts/M7WrKKvRC1Q?feature=share视觉效果终于达到我想要的东西,马上叫 codex 写成py

-
,
T terry 固定了此主题
-
新示范
how to clone Lee Ju-Eun to angellowee -
感谢分享,受益匪浅,马上实践验证一下
-
效果还满稳定的,但由于硬体配置不高,
所以每一次只能把原视频减成5s - 10s 处理一次: -
,系统 取消固定了此主题
-
我的机器是9800x3d处理器+32G DDR5+4090 48G,ubuntu下comfyui跑的时候虚拟内存必须设置64G,不然直接爆内存卡死,swap设置64G后才算能把你这工作流跑通,目前还在研究怎么调参数
-
我的机器是9800x3d处理器+32G DDR5+4090 48G,ubuntu下comfyui跑的时候虚拟内存必须设置64G,不然直接爆内存卡死,swap设置64G后才算能把你这工作流跑通,目前还在研究怎么调参数
@moocher8745 最后关头才来OOM 简直哭死

-
