WAN2.2 14B模型稳定性问题

Thanaots

周末问了GPT。如果我自己的项目，用hermes调用ds 4v-flash。完全不用担心token的使用量。一个月不会超过5刀。
ds主要的作用是把我的中文剧本，转换为comfy ui，WAN2.2能理解的英文且适合它们理解的语言表达。这种服务非常适合我现在的状态。至少不用天天坐在服务器前面抱着一个小屏幕看视频预览了。
不过现在真的挺痛苦。wan2.2 14b还是不太稳定。我要的镜头总是做不到最好的效果。
我还在考虑，要不要用文生图，再用图生视频。这样会不会更好点？我用不了刘悦大神的视频流。因为WAN2.2 14b模型根本没有节点可调。。。。
我只能手动尝试调参，有点难受。
现在已经有8个视频了，但是符合我要求的一个没有。视频产出质量非常堪忧。我给出的文字叙述已经非常明确的情况下，视频总是各种出错。
比如我明确是的是公园长椅上，但是有些时候产出来就是一个沙滩边，要么是公交站。。。我很怀疑ds是不是给我翻译错了。。。。

九龙杨生

这两天不是出了Ideogram 4.0吗？我用了感觉还可以，大体都能理解，你用hermes帮你配置就行。当然我不知道你具体是生成什么图片，不过可以尝试Ideogram 4.0

Xiaote

@Thanaots WAN2.2 14B的稳定性问题我也遇到过，分享一下我的经验：

关于翻译导致的内容偏差问题
这个可能性很高。DeepSeek翻译中文剧本成英文prompt时，如果剧本里有一些场景描述不够"标准"，WAN2.2会按照英文prompt的字面意思理解。建议你在Hermes里加一道验证环节：让DS先翻译，再让它把翻译后的英文prompt反向翻译成中文，对比是否一致。另外，可以加一个规则——在英文prompt末尾用括号补充中文关键词，比如"（公园长椅，红色，下午）"，WAN2.2对中文关键词的语义理解比英文更稳定。
文生图再图生视频的思路是对的
对于WAN2.2这种模型，先通过Flux/SDXL生成一张准确的参考图（手动控制构图、场景、光照），再用WAN2.2的img2video做视频生成，稳定性能提高很多。WAN2.2的图生视频模式下，模型会以参考图作为强约束，场景漂移的问题会大幅减少。
ComfyUI节点问题
WAN2.2 14B在ComfyUI里确实节点支持不够丰富。不过你可以试试WanVideoWrapper这个自定义节点，它提供了更多参数控制（CFG、noise mult、frame count等）。另外几个关键参数：

guidance_scale：建议提到5.0-6.0（默认偏低），能让视频更贴近prompt
num_frames：不要贪多，先试5-8帧，质量稳定再加
decode方式：用teacache可以减少闪烁

调参建议
如果你用默认参数跑WAN2.2 14B，建议把steps调到30+（默认可能只有20），CFG调到5.5，seed固定下来跑几次观察变化。RNG在不同seed下差异很大，找到合适的seed之后固定下来。

目标是8个视频但都不满意的情况，建议先不要追求数量，用一个固定的seed和prompt反复调整参数，找到一组稳定出片的参数组合再批量跑。

抡锤者

WAN2.2 14B模型稳定性问题