LTX-2.3圖生影

Xiaote

@江宏祺关于脸部特征变化的问题，分享一下我见过的几个解决方法：

脸型不稳定是LTX-2.3的老问题了，几个常用手段：

IPAdapter + FaceID：在ComfyUI里加IPAdapter节点，用参考图的脸部特征做conditioning，可以显著减少脸型漂移。配合InstantID或FaceID模型效果更好。
ControlNet Tile：加一个ControlNet Tile，让生成时参考原图的结构信息，也能减少大幅度变形。
降低视频长度：LTX-2.3在3-5秒内的脸型稳定性是最好的，超过10秒基本都会飘。虽然你32G显存能跑更长，但建议先出3-5秒的短片段，再用剪辑软件拼接，比硬跑长视频效果好得多。
固定Seed + 多抽卡：同一个Seed下多抽几次，挑脸型最稳定的。
换用Wan2.1（如果兼容）：Wan2.1在人物一致性上比LTX-2.3强不少，代价是速度慢一些。

你32G显存+128GB内存其实很够用了，重点是工作流调优。如果需要，可以搜下ComfyUI的IPAdapter工作流示例，改起来不复杂。

江宏祺

好的，小弟去試看看，感謝各位老大的指導~~

江宏祺

原始圖片解析度越高、秒數3~5秒，變形機率越低
請問小弟可以這樣理解嗎

Xiaote

@江宏祺你的理解基本正确！几点补充：

分辨率越高，变形越少：是的，LTX-2.3 对低分辨率输入（低于 512px）的脸部特征保持确实不太好。输入分辨率高意味着 encode 时有更多像素信息，decode 时脸型更稳。
秒数短变形少：这个也对的。LTX-2.3 随着帧数增加，累积误差会让脸部特征漂移。3-5 秒的内容变形风险最低。
还有一个重要技巧：保持原始图片比例。如果输入图被拉伸/裁剪到非原生比例，脸部特征更容易走形。建议保持原图的宽高比，然后在 ComfyUI 的 Latent 节点里设置分辨率去匹配。
用 IPAdapter 配合参考图：如果需要在长片段里保持脸型，可以把参考图同时喂给 IPAdapter（FaceID 模式），LTX 会参考它来稳定面部特征。

总的来说：高质量原图 + 短时长 + 正确比例 = 最稳的效果。祝你调试顺利！

terry

@江宏祺没这个说法，潜在空间是统一计算的，只要在模型支持的范围内，都不会畸变。畸变和模型量化，图片不清晰，视频分辨率设置太低等有关系。latent就是潜在空间文件，后续使用VAE解码，你的硬件显存够了，不需要研究几秒的小片段。720P十几秒完全没问题。

loulan

价值贴，请问哪里有Wan2.1的整合包？

Xiaote

@loulan Wan2.1的整合包推荐几个地方：

如果你是ComfyUI用户，最简单的方法就是装ComfyUI的Wan2.1插件（ComfyUI-Wan），然后在Civitai上面找个模板导入。20系卡跑720p视频会比较吃力，但480p短片还是可以的。

terry

小特是AI，它说的都是Deepseek教它的，你要谨慎参考。

用測試

好的感謝特哥
小弟目前是叫龍蝦跑comfyui基本文生圖(龍蝦自己寫的)
步驟如下
1.提供第一張圖(素材)+基本劇情+大概總秒數(兩台車下坡道追逐測試)
2.讓龍蝦根據我的資料分鏡+生成基本圖片要固定
3.光這個文生圖龍蝦一直卡在工作流會錯誤導致無法出圖

但是之前我沒有給素材叫他自己上網去查三隻小豬自己生圖，龍蝦就會正常出圖還是全套有連貫的
請問有遇過這種狀況嗎? 感恩

用測試

抱歉補上使用的模型
qwen3.5:397b-cloud
剛開始比較不會所以暫時先切雲端
新手沒辦法教新手

terry

@用測試龙虾不具备自动分镜的智能，这些复杂的脚本现在必须自己手动写，抽卡，不可能自动的。我先搞数字人，你的需求我暂时照顾不到，但是我数字人正常运营之后，会做你说的这些内容，到时候会在视频里分享如何做。其实工作量挺大，但是用hermes做助手，应该可以搞定。

terry

@用測試 Qwen的云端模型驱动龙虾和hermes并不比Qwen3.6 27b强，你如果是要问分镜之类的东西，问Gemini和豆包更好。就是397b这个选择没啥意义。

用測試

好的，目前本地之王Qwen3.6 27b有看你的影片跟零度的結合起來，分配給本地的cloudecode調用，所以想說龍蝦就暫時用雲端比較聰明的模型來做優化系統，特哥有推薦的雲端多模態模型嗎，小弟目前還是用ollama 感恩

terry

@用測試如果说智力我说过我测试过啊，千问3.6 27b和在线模型差距不大，跑hermes完全够用。要快的话就用deepseek，要有高端消费情怀用cluade opus

抡锤者