跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. 受站长的激励,分享一下这10天都在comfyui做了些什么“大”制作

受站长的激励,分享一下这10天都在comfyui做了些什么“大”制作

已定时 固定直到 2026/7/3 01:12 已锁定 已移动 AI音视频画图
14 帖子 7 发布者 62 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 在线
    A 在线
    abaalei
    技术大牛 劳动模范
    编写于 最后由 abaalei 编辑
    #1

    10天、18支视频:一人全栈AI漫画频道的完整踩坑记录

    不涉及具体项目/频道名称,只聊创作层面的真实迭代过程。


    时间线速览(基于文件系统时间戳)

    6/22 10:08  EP02 完成    41文件 ← 最早完成的成品!(EP01实验太久,EP02先出来了)
    6/23 00:03  EP03 完成    11文件
    6/23 00:28  EP01 完成    9文件  ← EP01反而是第三支完成的
    6/23 02:45  EP03_Rebuild 重建(质量不满意)
    6/23 23:14  EP04 完成    55文件 ← 管线爆发:建立标准目录结构
    6/24 20:26  EP05 完成    40文件 ← 新坑:VAE紫色杂讯
    6/25 08:30  VAE修复      ep05_fix_vae_test.py
    6/25 23:53  EP05_Rebuild 重建(质量不达标)
    6/26 18:22  EP06 完成    17文件 ← 管线精简,1080p上采样
    6/27 12:37  EP07 完成    27文件 ← 新增SFX音效、hook音频、缩略图
    6/27 20:02  EP08 完成    26文件
    6/28 10:34  EP08_Rebuild 重建
    6/28 00:29  Illustrious模型测试(替代Animagine的候选)
    6/30 12:04  EP10 完成    26文件
    6/30 12:08  EP09 完成    26文件
    6/30 19:53  EP11 完成    17文件
    

    EP01:双引擎试错,烧¥50买认知

    起步:想双线并进,WAN却直接翻车

    6月21日晚上,creator子智能体开始构建EP01的工作流。最初的计划是WAN 2.2和LTX 2.3双线并行,creator profile里现在还留着当时的脚本:

    submit_i2v_final.py  (21:06)  → WAN 2.2 API格式
    submit_i2v_fix.py    (21:05)  → WAN 2.2 修复版
    submit_i2v_v2.py     (21:09)  → WAN 2.2 迭代2
    submit_i2v_v3.py     (21:10)  → WAN 2.2 迭代3
    submit_i2v_v4.py     (21:13)  → WAN 2.2 迭代4
    

    一小时内出了5版脚本——不是因为正常迭代,而是WAN 2.2遇到了致命性故障:生成画面满屏紫色杂讯,完全不可用。
    (最后发现,wan2.2,只要使用单Unet节点,100%会触发,有且只能用双Unet的模式)

    换了参数、换了prompt、换了CLIP编码器……5个版本全部翻车。紫色杂讯像病毒一样覆盖每一帧输出。这个bug后来在6/23的 submit_wan_i2v_fixed.py 里才被修掉。

    被迫单线:LTX 2.3救场

    (我一直都是让hermes agent给我按照机智罗的工作流做到完整的复制,但是deepseek一直在找借口绕路)
    (后面新开了会话,让sonnet4.6来救场后,才遵循到我的要求来跑通了第一天的工作)
    d21d61a9-0f17-472e-ad25-a358fcdf1b3a-image.jpeg
    2a03d465-9a70-49d8-b590-1c2242d36ea2-image.jpeg

    WAN不行,只能把全部希望押在LTX 2.3上。用的是 ltx-2-3-22b-distilled-Q4_K_M.gguf(Q4量化),CLIP:Gemma 3 12B GGUF。出图参数:8步、CFG 1.0。

    LTX的问题是:视频画面对prompt的遵从度低,生成的画面经常偏离脚本描述。为了得到一组勉强可用的画面,需要反复调整prompt重试。但至少——它能出图,不像WAN那样直接紫色糊脸。

    成本

    DeepSeek V4 Flash主要用于故事脚本拆解(把原文拆成分镜脚本)和prompt迭代(每次重试都要重新调prompt)。一晚上下来烧了大约¥50的API token。

    后续:WAN 2.2在后面几集成功接手

    EP01被迫只用LTX 2.3跑通后,没有放弃WAN。6/23凌晨修复了紫色杂讯bug(submit_wan_i2v_fixed.py + submit_wan_i2v_xb.py),后续视频开始迭代到WAN 2.2作为主力。

    EP01的关键决策

    做完EP01后确定了三个原则:

    1. 放弃视频生成路线做漫画——LTX生成的视频逐帧拆成漫画质量太差
    2. ComfyUI逐帧出图(用Animagine XL V3 + 自定义角色LoRA)作为主力
    3. 文本模型只负责拆脚本,画面和风格交给本地GPU

    EP02-03:固定工作流 + 首次视频化尝试

    标准参数确立

    基础模型:Animagine XL V3 (SDXL动漫特化)
    LoRA:    自定义女性角色 LoRA @ 0.8 强度
    分辨率:  1344×768 (16:9 漫画比例)
    采样器:  dpmpp_2m_sde + karras, 20步
    CFG:     7
    环境:    241节点 → 7900 XTX (ComfyUI :8188)
    

    这组参数成为后续所有视频的"标准配方"。

    EP03视频化:WAN修复后首测

    6月23日凌晨3:55-3:59,creator在241上跑了修复后的WAN 2.2对比实验:

    端口8189 → WAN 2.2 I2V (fixed UMT5版 + XB版)
    端口8188 → LTX 2.3 I2V (对比基线)
    

    输入都是 EP03_P01_FINAL.png。WAN的紫色杂讯bug终于在 submit_wan_i2v_fixed.py 里被修掉了。这次实验验证了:把静态漫画转成视频片段(作为视频的开场/高潮动效)是可行的,但整集都用视频生成不行。 后续视频开始从LTX逐步迁移到WAN。


    EP04(6/23深夜):标准管线诞生

    EP04是整个项目的分水岭。55个文件,第一次建立了完整的目录结构:

    EP04/
      01_images/      ← ComfyUI静态漫画帧(P01-P12,含a/b变体)
      02_scripts/     ← 生成脚本
      03_prompts/     ← ComfyUI prompt JSON
      04_tts/         ← 日语配音音频
      05_i2v/         ← 图片转视频(WAN 2.2 I2V)
      05_i2v_rife/    ← RIFE帧插值(补帧到60fps)
      06_bgm/         ← 背景音乐
      08_deliverables/← 最终交付文件
    

    同时也是第一次产出双语版本:JP(日语)和 EN(英语)各一套,含完整版和Shorts版。

    这个目录结构成了后续所有EP的模板。

    EP05(6/24-25):VAE紫色杂讯——又一个"紫色"bug

    6月24日EP05完成初版。但出现了新的画面bug:VAEDecodeTiled导致的紫色块。

    6月25日早上8:30,creator写了 ep05_fix_vae_test.py:

    修复 VAEDecodeTiled → 标准 VAEDecode,验证紫色块消失
    

    把ComfyUI工作流里的VAE解码器从分块模式(VAEDecodeTiled)切回标准模式(VAEDecode),紫色块消失。

    但初版还有其他质量问题——6月25日晚上23:53完成了EP05_Rebuild(29个文件的重建版)。EP05还留下了 wrong/ 目录(废弃输出),说明当时在大量试错。

    EP06(6/26):管线精简 + 1080p上采样

    文件数从EP04的55个降到17个——不是产出少了,是管线更成熟了,不再需要那么多中间产物。新增了 upscaled_1080p_full/ 和 upscaled_1080p_short/,说明正式加入了AI超分辨率上采样环节。

    EP07(6/27上午):功能最丰富的一集

    EP07新增了:

    • SFX音效(sfx/)
    • Hook音频(tts_hook_jp.wav)——视频开头抓人的短音频
    • 缩略图采样(thumbnail_samples/)——给YouTube封面准备
    • 发布版本文档(ep07_publish_copy.md)——记录发布描述文案

    EP08(6/27晚-6/28重建):效率冲刺

    EP08一天内完成(27号20:02),但第二天(28号10:34)又Rebuild了。日产量达到2集。

    Illustrious模型测试(6/28)

    在 illustrious-test/ 目录下做了大量测试——Illustrious是另一个SDXL动漫模型,作为Animagine XL V3的替代候选。测试内容包括独奏(单人)、双人、inpaint等场景。

    EP02先于EP01完成?创作顺序的真相

    文件时间戳揭示了有趣的事实:

    EP02 → 6/22 10:08 (41文件,最早)
    EP03 → 6/23 00:03
    EP01 → 6/23 00:28 (反而是第三支)
    

    EP01不是第一支完成的视频。EP01因为WAN故障+LTX试错消耗了最多时间,反而EP02和EP03先用成熟工作流跑完了。EP01到6月23日凌晨才最终交付——它是创作顺序上的起点,却是交付顺序上的第三名。


    EP06:漫画感的觉醒

    核心问题

    AI直出的图缺少"漫画味"——没有气泡、拟声词、分镜节奏。

    尝试在ComfyUI里直接出带气泡的图(prompt里写"speech bubble"),结果:气泡是画面的一部分,位置随机,文字乱码,经常盖在人脸上。

    决策:AI出纯净图,后期手动加漫画元素

    这是整个工作流的转折点。制作时间翻倍(2h→4h),但画面质量飞跃:

    • 气泡不再盖人脸
    • 文字不再是乱码
    • 分镜有了真正的节奏感

    EP07(6/26-27):工作流全面优化

    6/27的系统性优化

    在creator和dev profile的对话中确认了以下改动:

    ① 模型目录统一
    之前模型散落两处(~/ComfyUI/models/ 和 /mnt/models/ComfyUI/),导致加载失败和重复下载。全部归到 /mnt/models/ComfyUI/。

    ② 多卡分工

    7900 XTX #1 :8188 → 主出图流程
    7900 XTX #2 :8189 → 修复/Inpainting辅助
    3080 Ti        → 视频编码/后期
    

    ③ 角色一致性升级
    从"IPAdapter + 单参考图"升级到"IPAdapter + 多角度参考图库(正脸/侧脸/表情各一张)"。

    ④ 漫画气泡方案定型

    讨论了三路线:

    • PanelForge集成 → 灵活但手动定位
    • Inpainting融合 → 画质好但多一步出图
    • Python后处理 → 快速、全自动、不费GPU

    最终选Python后处理:AnimagineXL出图→MediaPipe检测人脸→计算气泡安全区→Pillow渲染→叠加。不用再跑一次ComfyUI,批次处理更快。


    EP08+:效率飞轮

    不再加新功能,全力提效:

    • 脚本拆解prompt模板化(DeepSeek一次出合格分镜)
    • ComfyUI JSON工作流固化(换prompt节点就出图)
    • 后期步骤脚本化

    单集制作时间:EP01的7h+ → EP08的2-3h。


    技术参数附录

    ComfyUI 静态出图(Animagine XL V3 + LoRA)

    # EP05 batch static 脚本中的标准参数
    width:  768          # 竖屏漫画比例
    height: 1344         # 竖屏漫画比例
    batch_size: 1        # 单张出图
    seed:    202022      # 基础种子,每页+1
    steps:   20          # 步数
    cfg:     6.0         # CFG引导强度
    sampler: dpmpp_2m_sde
    scheduler: karras
    denoise: 1.0
    

    LoRA强度未在脚本里写死(由ComfyUI workflow JSON控制),实际使用 female_lead_lora.safetensors @ 0.8。

    LTX 2.3 视频生成

    # batch_submit_v5.py 中的参数
    steps:      15       # LTX比静态图需要更多步
    cfg:        1.0      # 视频模型CFG接近1
    sampler:    euler
    scheduler:  sgm_uniform
    frame_rate: 24       # 目标24fps
    strength:   1.0      # img2video强度
    

    CLIP: LTX-2.3/gemma-3-12b-it-Q4_K_M.gguf(GGUF量化)
    UNet: LTX-2.3/ltx-2-3-22b-distilled-Q4_K_M.gguf(Q4量化)
    VAE: LTX-2.3/LTX23_video_vae_bf16.safetensors

    WAN 2.2 视频生成

    (其实这两个都是复刻机智罗的工作流,但是在使用过程中慢慢的加入了自己的参数罢了)

    # submit_i2v_v4.py / submit_wan_i2v_fixed.py
    CLIP:     t5xxl_fp8_e4m3fn.safetensors
    VAE:      Wan2.2/wan2.2_vae.safetensors
    UNet:     Wan2.2/I2V/Wan2.2_I2V_Dasiwa-V10_Q4_High.gguf (Q4量化)
    采样步数: 3 (轻量快速出视频)
    CFG:      1
    分辨率:   624×624 → crop到16倍数
    

    RIFE 帧插值

    EP05-Rebuild (失败方案):
      pass ×2:  81f → 161f → 321f
      播放:     24fps = 13.4s/页
      效果:     2.6x慢动作 ❌ 太慢
    
    EP06(最终方案):
      pass ×1:  81f@16fps → 161f@24fps
      播放:     24fps = 6.7s/页
      效果:     1.3x微慢 ✅ 最佳
    

    RIFE配置:

    clear_cache_after_n_frames: 10  # 防止显存泄漏
    scale_factor: 1.0              # 不缩放(480×832→1080p交给后续upscale)
    input: 480×832 (ComfyUI直出) → output: 161f@24fps
    

    双卡负载分配(batch_submit_v5 交替模式)

    jobs = [
        ("http://192.168.0.241:8188/prompt", "P02.png"),  # 卡1
        ("http://192.168.0.241:8189/prompt", "P03.png"),  # 卡2
        ("http://192.168.0.241:8188/prompt", "P04.png"),  # 卡1
        ("http://192.168.0.241:8189/prompt", "P05.png"),  # 卡2
        ...
    ]
    

    交替分配让两张卡同时跑,并行出图翻倍效率。

    标准EP管线目录

    EP0X/
      01_images/      ← ComfyUI静态漫画帧
      03_prompts/     ← ComfyUI workflow JSON
      04_tts/         ← VoiceVox日语配音
      05_i2v/         ← WAN 2.2 图片转视频片段
      05_i2v_rife/    ← RIFE帧插值 (81f→161f)
      06_bgm/         ← 背景音乐
      08_deliverables/← 最终成品
      upscaled_1080p/ ← AI超分到1080p
      *_full.mp4       ← 完整版
      *_shorts.mp4     ← YouTube Shorts版
      *_JP_*.mp4       ← 日语版
      *_EN_*.mp4       ← 英语版
    

    成本

    项目 费用 说明
    DeepSeek V4 Flash API ~¥5-10/集(含其他迭代优化脚本之花费) 脚本拆解+prompt生成
    EP01特殊成本 ~¥50 WAN试错+LTX反复调参
    ComfyUI出图 免费 本地7900 XTX
    VoiceVox TTS 免费 开源
    VoxCPM2声线转换 免费 自建(内网6843)
    RIFE帧插值 免费 本地GPU
    1080p超分 免费 本地GPU

    核心心得

    1. 视频生成模型不适合做漫画

    WAN 2.2和LTX 2.3都试了。结论:视频模型适合"运动的画面",漫画需要的是"高质量静态帧+叙事节奏"。方向性错误,¥50买了这个认知。

    2. WAN的紫色杂讯bug拖了一整天

    计划的双线策略被WAN的致命bug打乱了。5版脚本全部翻车,最终只能靠LTX 2.3单线跑通EP01。但好在bug后来修掉了,WAN在后面几集成功接手。

    3. AI出图 + 人工后期 > 全AI一条龙

    气泡和分镜交给AI → 乱码盖脸。AI只做"出纯净画面",排版/文字/节奏留给手动控制。这个分界线画清楚后,画面质量直接跳了一档。

    4. 角色一致性是AI漫画的终极难题

    LoRA + IPAdapter + 多角度参考图库——目前最稳定的方案。但依然做不到100%。这是整个工作流最耗精力的部分。

    5. 多GPU是被逼出来的
    (其实并不是,只是我TM拿到了劳动仲裁款,有钱身痒痒,看到坛里分享的优惠咨询,不买不开心)

    一张7900 XTX一天出不了18集的图。三张卡各司其职才能把周期压缩到一天2-3支。


    基于creator/dev profiles的实际对话记录、ComfyUI工作流脚本和YouTube频道数据整理。

    98749fd8-04b0-48c3-9203-f550db02e700-image.jpeg

    慢慢迭代优化后,频道第一次突破1000播放!
    5b89f0f3-87a3-46ab-b677-ee9290667a72-image.jpeg

    以上迭代思路受马斯克之:快速迭代敏捷开发所启发,不管黑猫好猫,先把管线跑起来,再慢慢优化稳定

    补充一下现在在跑的项目实际速度,大概500s生成5s,480*832
    f43a2462-0d65-48a0-9afd-72582626c35b-image.jpeg
    2bde3391-6a88-47d8-b500-a6d569f02174-image.jpeg

    kos orK 1 条回复 最后回复
    5
    • imbiplaza ASUSI 在线
      imbiplaza ASUSI 在线
      imbiplaza ASUS
      技术大牛 劳动模范
      编写于 最后由 编辑
      #2

      正好,我也想把风云漫画变成动漫,关于七剑屠暴龙那段故事。。。。。

      williamlouisW 1 条回复 最后回复
      0
      • imbiplaza ASUSI imbiplaza ASUS

        正好,我也想把风云漫画变成动漫,关于七剑屠暴龙那段故事。。。。。

        williamlouisW 离线
        williamlouisW 离线
        williamlouis
        超级版主
        编写于 最后由 编辑
        #3

        @imbiplaza-ASUS 不错的思路。你那应该不受风云版权的管束吧?或改改名字和对白规避一下。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        imbiplaza ASUSI 1 条回复 最后回复
        1
        • K 离线
          K 离线
          koala
          编写于 最后由 编辑
          #4

          非技术流大神应该搞不定这个繁琐的流程,虽然听得一知半解的,倒是给了点思路,你用机制罗的哪个流程做底膜?我拿来改改试试

          A 1 条回复 最后回复
          0
          • A abaalei

            10天、18支视频:一人全栈AI漫画频道的完整踩坑记录

            不涉及具体项目/频道名称,只聊创作层面的真实迭代过程。


            时间线速览(基于文件系统时间戳)

            6/22 10:08  EP02 完成    41文件 ← 最早完成的成品!(EP01实验太久,EP02先出来了)
            6/23 00:03  EP03 完成    11文件
            6/23 00:28  EP01 完成    9文件  ← EP01反而是第三支完成的
            6/23 02:45  EP03_Rebuild 重建(质量不满意)
            6/23 23:14  EP04 完成    55文件 ← 管线爆发:建立标准目录结构
            6/24 20:26  EP05 完成    40文件 ← 新坑:VAE紫色杂讯
            6/25 08:30  VAE修复      ep05_fix_vae_test.py
            6/25 23:53  EP05_Rebuild 重建(质量不达标)
            6/26 18:22  EP06 完成    17文件 ← 管线精简,1080p上采样
            6/27 12:37  EP07 完成    27文件 ← 新增SFX音效、hook音频、缩略图
            6/27 20:02  EP08 完成    26文件
            6/28 10:34  EP08_Rebuild 重建
            6/28 00:29  Illustrious模型测试(替代Animagine的候选)
            6/30 12:04  EP10 完成    26文件
            6/30 12:08  EP09 完成    26文件
            6/30 19:53  EP11 完成    17文件
            

            EP01:双引擎试错,烧¥50买认知

            起步:想双线并进,WAN却直接翻车

            6月21日晚上,creator子智能体开始构建EP01的工作流。最初的计划是WAN 2.2和LTX 2.3双线并行,creator profile里现在还留着当时的脚本:

            submit_i2v_final.py  (21:06)  → WAN 2.2 API格式
            submit_i2v_fix.py    (21:05)  → WAN 2.2 修复版
            submit_i2v_v2.py     (21:09)  → WAN 2.2 迭代2
            submit_i2v_v3.py     (21:10)  → WAN 2.2 迭代3
            submit_i2v_v4.py     (21:13)  → WAN 2.2 迭代4
            

            一小时内出了5版脚本——不是因为正常迭代,而是WAN 2.2遇到了致命性故障:生成画面满屏紫色杂讯,完全不可用。
            (最后发现,wan2.2,只要使用单Unet节点,100%会触发,有且只能用双Unet的模式)

            换了参数、换了prompt、换了CLIP编码器……5个版本全部翻车。紫色杂讯像病毒一样覆盖每一帧输出。这个bug后来在6/23的 submit_wan_i2v_fixed.py 里才被修掉。

            被迫单线:LTX 2.3救场

            (我一直都是让hermes agent给我按照机智罗的工作流做到完整的复制,但是deepseek一直在找借口绕路)
            (后面新开了会话,让sonnet4.6来救场后,才遵循到我的要求来跑通了第一天的工作)
            d21d61a9-0f17-472e-ad25-a358fcdf1b3a-image.jpeg
            2a03d465-9a70-49d8-b590-1c2242d36ea2-image.jpeg

            WAN不行,只能把全部希望押在LTX 2.3上。用的是 ltx-2-3-22b-distilled-Q4_K_M.gguf(Q4量化),CLIP:Gemma 3 12B GGUF。出图参数:8步、CFG 1.0。

            LTX的问题是:视频画面对prompt的遵从度低,生成的画面经常偏离脚本描述。为了得到一组勉强可用的画面,需要反复调整prompt重试。但至少——它能出图,不像WAN那样直接紫色糊脸。

            成本

            DeepSeek V4 Flash主要用于故事脚本拆解(把原文拆成分镜脚本)和prompt迭代(每次重试都要重新调prompt)。一晚上下来烧了大约¥50的API token。

            后续:WAN 2.2在后面几集成功接手

            EP01被迫只用LTX 2.3跑通后,没有放弃WAN。6/23凌晨修复了紫色杂讯bug(submit_wan_i2v_fixed.py + submit_wan_i2v_xb.py),后续视频开始迭代到WAN 2.2作为主力。

            EP01的关键决策

            做完EP01后确定了三个原则:

            1. 放弃视频生成路线做漫画——LTX生成的视频逐帧拆成漫画质量太差
            2. ComfyUI逐帧出图(用Animagine XL V3 + 自定义角色LoRA)作为主力
            3. 文本模型只负责拆脚本,画面和风格交给本地GPU

            EP02-03:固定工作流 + 首次视频化尝试

            标准参数确立

            基础模型:Animagine XL V3 (SDXL动漫特化)
            LoRA:    自定义女性角色 LoRA @ 0.8 强度
            分辨率:  1344×768 (16:9 漫画比例)
            采样器:  dpmpp_2m_sde + karras, 20步
            CFG:     7
            环境:    241节点 → 7900 XTX (ComfyUI :8188)
            

            这组参数成为后续所有视频的"标准配方"。

            EP03视频化:WAN修复后首测

            6月23日凌晨3:55-3:59,creator在241上跑了修复后的WAN 2.2对比实验:

            端口8189 → WAN 2.2 I2V (fixed UMT5版 + XB版)
            端口8188 → LTX 2.3 I2V (对比基线)
            

            输入都是 EP03_P01_FINAL.png。WAN的紫色杂讯bug终于在 submit_wan_i2v_fixed.py 里被修掉了。这次实验验证了:把静态漫画转成视频片段(作为视频的开场/高潮动效)是可行的,但整集都用视频生成不行。 后续视频开始从LTX逐步迁移到WAN。


            EP04(6/23深夜):标准管线诞生

            EP04是整个项目的分水岭。55个文件,第一次建立了完整的目录结构:

            EP04/
              01_images/      ← ComfyUI静态漫画帧(P01-P12,含a/b变体)
              02_scripts/     ← 生成脚本
              03_prompts/     ← ComfyUI prompt JSON
              04_tts/         ← 日语配音音频
              05_i2v/         ← 图片转视频(WAN 2.2 I2V)
              05_i2v_rife/    ← RIFE帧插值(补帧到60fps)
              06_bgm/         ← 背景音乐
              08_deliverables/← 最终交付文件
            

            同时也是第一次产出双语版本:JP(日语)和 EN(英语)各一套,含完整版和Shorts版。

            这个目录结构成了后续所有EP的模板。

            EP05(6/24-25):VAE紫色杂讯——又一个"紫色"bug

            6月24日EP05完成初版。但出现了新的画面bug:VAEDecodeTiled导致的紫色块。

            6月25日早上8:30,creator写了 ep05_fix_vae_test.py:

            修复 VAEDecodeTiled → 标准 VAEDecode,验证紫色块消失
            

            把ComfyUI工作流里的VAE解码器从分块模式(VAEDecodeTiled)切回标准模式(VAEDecode),紫色块消失。

            但初版还有其他质量问题——6月25日晚上23:53完成了EP05_Rebuild(29个文件的重建版)。EP05还留下了 wrong/ 目录(废弃输出),说明当时在大量试错。

            EP06(6/26):管线精简 + 1080p上采样

            文件数从EP04的55个降到17个——不是产出少了,是管线更成熟了,不再需要那么多中间产物。新增了 upscaled_1080p_full/ 和 upscaled_1080p_short/,说明正式加入了AI超分辨率上采样环节。

            EP07(6/27上午):功能最丰富的一集

            EP07新增了:

            • SFX音效(sfx/)
            • Hook音频(tts_hook_jp.wav)——视频开头抓人的短音频
            • 缩略图采样(thumbnail_samples/)——给YouTube封面准备
            • 发布版本文档(ep07_publish_copy.md)——记录发布描述文案

            EP08(6/27晚-6/28重建):效率冲刺

            EP08一天内完成(27号20:02),但第二天(28号10:34)又Rebuild了。日产量达到2集。

            Illustrious模型测试(6/28)

            在 illustrious-test/ 目录下做了大量测试——Illustrious是另一个SDXL动漫模型,作为Animagine XL V3的替代候选。测试内容包括独奏(单人)、双人、inpaint等场景。

            EP02先于EP01完成?创作顺序的真相

            文件时间戳揭示了有趣的事实:

            EP02 → 6/22 10:08 (41文件,最早)
            EP03 → 6/23 00:03
            EP01 → 6/23 00:28 (反而是第三支)
            

            EP01不是第一支完成的视频。EP01因为WAN故障+LTX试错消耗了最多时间,反而EP02和EP03先用成熟工作流跑完了。EP01到6月23日凌晨才最终交付——它是创作顺序上的起点,却是交付顺序上的第三名。


            EP06:漫画感的觉醒

            核心问题

            AI直出的图缺少"漫画味"——没有气泡、拟声词、分镜节奏。

            尝试在ComfyUI里直接出带气泡的图(prompt里写"speech bubble"),结果:气泡是画面的一部分,位置随机,文字乱码,经常盖在人脸上。

            决策:AI出纯净图,后期手动加漫画元素

            这是整个工作流的转折点。制作时间翻倍(2h→4h),但画面质量飞跃:

            • 气泡不再盖人脸
            • 文字不再是乱码
            • 分镜有了真正的节奏感

            EP07(6/26-27):工作流全面优化

            6/27的系统性优化

            在creator和dev profile的对话中确认了以下改动:

            ① 模型目录统一
            之前模型散落两处(~/ComfyUI/models/ 和 /mnt/models/ComfyUI/),导致加载失败和重复下载。全部归到 /mnt/models/ComfyUI/。

            ② 多卡分工

            7900 XTX #1 :8188 → 主出图流程
            7900 XTX #2 :8189 → 修复/Inpainting辅助
            3080 Ti        → 视频编码/后期
            

            ③ 角色一致性升级
            从"IPAdapter + 单参考图"升级到"IPAdapter + 多角度参考图库(正脸/侧脸/表情各一张)"。

            ④ 漫画气泡方案定型

            讨论了三路线:

            • PanelForge集成 → 灵活但手动定位
            • Inpainting融合 → 画质好但多一步出图
            • Python后处理 → 快速、全自动、不费GPU

            最终选Python后处理:AnimagineXL出图→MediaPipe检测人脸→计算气泡安全区→Pillow渲染→叠加。不用再跑一次ComfyUI,批次处理更快。


            EP08+:效率飞轮

            不再加新功能,全力提效:

            • 脚本拆解prompt模板化(DeepSeek一次出合格分镜)
            • ComfyUI JSON工作流固化(换prompt节点就出图)
            • 后期步骤脚本化

            单集制作时间:EP01的7h+ → EP08的2-3h。


            技术参数附录

            ComfyUI 静态出图(Animagine XL V3 + LoRA)

            # EP05 batch static 脚本中的标准参数
            width:  768          # 竖屏漫画比例
            height: 1344         # 竖屏漫画比例
            batch_size: 1        # 单张出图
            seed:    202022      # 基础种子,每页+1
            steps:   20          # 步数
            cfg:     6.0         # CFG引导强度
            sampler: dpmpp_2m_sde
            scheduler: karras
            denoise: 1.0
            

            LoRA强度未在脚本里写死(由ComfyUI workflow JSON控制),实际使用 female_lead_lora.safetensors @ 0.8。

            LTX 2.3 视频生成

            # batch_submit_v5.py 中的参数
            steps:      15       # LTX比静态图需要更多步
            cfg:        1.0      # 视频模型CFG接近1
            sampler:    euler
            scheduler:  sgm_uniform
            frame_rate: 24       # 目标24fps
            strength:   1.0      # img2video强度
            

            CLIP: LTX-2.3/gemma-3-12b-it-Q4_K_M.gguf(GGUF量化)
            UNet: LTX-2.3/ltx-2-3-22b-distilled-Q4_K_M.gguf(Q4量化)
            VAE: LTX-2.3/LTX23_video_vae_bf16.safetensors

            WAN 2.2 视频生成

            (其实这两个都是复刻机智罗的工作流,但是在使用过程中慢慢的加入了自己的参数罢了)

            # submit_i2v_v4.py / submit_wan_i2v_fixed.py
            CLIP:     t5xxl_fp8_e4m3fn.safetensors
            VAE:      Wan2.2/wan2.2_vae.safetensors
            UNet:     Wan2.2/I2V/Wan2.2_I2V_Dasiwa-V10_Q4_High.gguf (Q4量化)
            采样步数: 3 (轻量快速出视频)
            CFG:      1
            分辨率:   624×624 → crop到16倍数
            

            RIFE 帧插值

            EP05-Rebuild (失败方案):
              pass ×2:  81f → 161f → 321f
              播放:     24fps = 13.4s/页
              效果:     2.6x慢动作 ❌ 太慢
            
            EP06(最终方案):
              pass ×1:  81f@16fps → 161f@24fps
              播放:     24fps = 6.7s/页
              效果:     1.3x微慢 ✅ 最佳
            

            RIFE配置:

            clear_cache_after_n_frames: 10  # 防止显存泄漏
            scale_factor: 1.0              # 不缩放(480×832→1080p交给后续upscale)
            input: 480×832 (ComfyUI直出) → output: 161f@24fps
            

            双卡负载分配(batch_submit_v5 交替模式)

            jobs = [
                ("http://192.168.0.241:8188/prompt", "P02.png"),  # 卡1
                ("http://192.168.0.241:8189/prompt", "P03.png"),  # 卡2
                ("http://192.168.0.241:8188/prompt", "P04.png"),  # 卡1
                ("http://192.168.0.241:8189/prompt", "P05.png"),  # 卡2
                ...
            ]
            

            交替分配让两张卡同时跑,并行出图翻倍效率。

            标准EP管线目录

            EP0X/
              01_images/      ← ComfyUI静态漫画帧
              03_prompts/     ← ComfyUI workflow JSON
              04_tts/         ← VoiceVox日语配音
              05_i2v/         ← WAN 2.2 图片转视频片段
              05_i2v_rife/    ← RIFE帧插值 (81f→161f)
              06_bgm/         ← 背景音乐
              08_deliverables/← 最终成品
              upscaled_1080p/ ← AI超分到1080p
              *_full.mp4       ← 完整版
              *_shorts.mp4     ← YouTube Shorts版
              *_JP_*.mp4       ← 日语版
              *_EN_*.mp4       ← 英语版
            

            成本

            项目 费用 说明
            DeepSeek V4 Flash API ~¥5-10/集(含其他迭代优化脚本之花费) 脚本拆解+prompt生成
            EP01特殊成本 ~¥50 WAN试错+LTX反复调参
            ComfyUI出图 免费 本地7900 XTX
            VoiceVox TTS 免费 开源
            VoxCPM2声线转换 免费 自建(内网6843)
            RIFE帧插值 免费 本地GPU
            1080p超分 免费 本地GPU

            核心心得

            1. 视频生成模型不适合做漫画

            WAN 2.2和LTX 2.3都试了。结论:视频模型适合"运动的画面",漫画需要的是"高质量静态帧+叙事节奏"。方向性错误,¥50买了这个认知。

            2. WAN的紫色杂讯bug拖了一整天

            计划的双线策略被WAN的致命bug打乱了。5版脚本全部翻车,最终只能靠LTX 2.3单线跑通EP01。但好在bug后来修掉了,WAN在后面几集成功接手。

            3. AI出图 + 人工后期 > 全AI一条龙

            气泡和分镜交给AI → 乱码盖脸。AI只做"出纯净画面",排版/文字/节奏留给手动控制。这个分界线画清楚后,画面质量直接跳了一档。

            4. 角色一致性是AI漫画的终极难题

            LoRA + IPAdapter + 多角度参考图库——目前最稳定的方案。但依然做不到100%。这是整个工作流最耗精力的部分。

            5. 多GPU是被逼出来的
            (其实并不是,只是我TM拿到了劳动仲裁款,有钱身痒痒,看到坛里分享的优惠咨询,不买不开心)

            一张7900 XTX一天出不了18集的图。三张卡各司其职才能把周期压缩到一天2-3支。


            基于creator/dev profiles的实际对话记录、ComfyUI工作流脚本和YouTube频道数据整理。

            98749fd8-04b0-48c3-9203-f550db02e700-image.jpeg

            慢慢迭代优化后,频道第一次突破1000播放!
            5b89f0f3-87a3-46ab-b677-ee9290667a72-image.jpeg

            以上迭代思路受马斯克之:快速迭代敏捷开发所启发,不管黑猫好猫,先把管线跑起来,再慢慢优化稳定

            补充一下现在在跑的项目实际速度,大概500s生成5s,480*832
            f43a2462-0d65-48a0-9afd-72582626c35b-image.jpeg
            2bde3391-6a88-47d8-b500-a6d569f02174-image.jpeg

            kos orK 离线
            kos orK 离线
            kos or
            劳动模范 德高望重
            编写于 最后由 编辑
            #5

            @abaalei 说:

            慢慢迭代优化后,频道第一次突破1000播放!

            恭喜呀 讚讚 !:)

            很少看漫畫 但之前看過漫畫 我獨自升級(韓語:나 혼자만 레벨업;英語:Solo Leveling;日語:俺だけレベルアップな件)是由Chugong(韓語:추공)所創作的韓國網路小說。
            d149aff8-0512-4304-bcf2-cabe18784f11-image.jpeg

            A 1 条回复 最后回复
            1
            • 5 在线
              5 在线
              566656661
              超凡大师
              编写于 最后由 编辑
              #6

              我這幾天簡單試了ComfyUI的T2I和I2V, 以及看了看P站上的生成漫畫作為參考

              穩定度最高的應該就是用T2I跟I2I, 外加人手修改, 基本上我看到的對話框有蠻明顯的後期添加元素

              Civitai上面的(色色)漫畫分景Lora則比較難固定角色外觀, 而且分景的素質有時很難接受

              A 1 条回复 最后回复
              0
              • terryT 离线
                terryT 离线
                terry
                超级版主
                编写于 最后由 terry 编辑
                #7

                牛逼,我其实也很想搞这类视频,但是最近忙不过来,要等完全不缺钱了,才有时间。论坛很需要这样的分享,我等大家折腾好了抄作业。
                关于频道名称,如果想推广,作为技术大牛肯定是可以的,附带在教程中。
                但是我建议,不要分享,因为你会被抄到怀疑人生。我的英语频道,分享了之后就被抄哭了。后来我重新做了一个,一年多才超过分享的频道,血泪教训。现在这个频道所有信息,我在任何地方都不提。

                油管:https://www.youtube.com/@抡锤者

                A 1 条回复 最后回复
                1
                • ,terryT terry 固定了此主题
                • K koala

                  非技术流大神应该搞不定这个繁琐的流程,虽然听得一知半解的,倒是给了点思路,你用机制罗的哪个流程做底膜?我拿来改改试试

                  A 在线
                  A 在线
                  abaalei
                  技术大牛 劳动模范
                  编写于 最后由 abaalei 编辑
                  #8

                  @koala
                  一开始是hermes帮我随手按照官方节点搭的工作流
                  后面在:15-Wan2.2-GGUF-4步工作流 16-Wan2.2-首尾帧图生视频-4步
                  中进行对比,原本想进16的,但是当时还没搞明白生成紫色网格状是什么原因,所以回退到15
                  536b7caa-8a07-4db7-a8f7-cb57a9aef611-image.jpeg

                  然后昨天?前天?重启了comfyui后,小白工具箱的某个节点更新了,工作流又炸了后
                  暂时又再次新搭建了一个工作流,不过耗时比较长,昨晚双卡跑60个5s视频,花了4小时,还有挺大的优化空间(也就是30个视频4小时/卡,不过卡2因为散热原因导致比卡1慢了1小时,热点温度经常碰到93度触发降频,所以今天调整了下卡的顺序、间距、辅助风扇的位置,不知道效果咋样)

                  1 条回复 最后回复
                  0
                  • kos orK kos or

                    @abaalei 说:

                    慢慢迭代优化后,频道第一次突破1000播放!

                    恭喜呀 讚讚 !:)

                    很少看漫畫 但之前看過漫畫 我獨自升級(韓語:나 혼자만 레벨업;英語:Solo Leveling;日語:俺だけレベルアップな件)是由Chugong(韓語:추공)所創作的韓國網路小說。
                    d149aff8-0512-4304-bcf2-cabe18784f11-image.jpeg

                    A 在线
                    A 在线
                    abaalei
                    技术大牛 劳动模范
                    编写于 最后由 编辑
                    #9

                    @kos-or 这部漫画这两年经由A1-picture动画化后,获得了巨大的反响呢!

                    1 条回复 最后回复
                    0
                    • terryT terry

                      牛逼,我其实也很想搞这类视频,但是最近忙不过来,要等完全不缺钱了,才有时间。论坛很需要这样的分享,我等大家折腾好了抄作业。
                      关于频道名称,如果想推广,作为技术大牛肯定是可以的,附带在教程中。
                      但是我建议,不要分享,因为你会被抄到怀疑人生。我的英语频道,分享了之后就被抄哭了。后来我重新做了一个,一年多才超过分享的频道,血泪教训。现在这个频道所有信息,我在任何地方都不提。

                      A 在线
                      A 在线
                      abaalei
                      技术大牛 劳动模范
                      编写于 最后由 编辑
                      #10

                      @terry 对,所以频道名啥的我都隐去了,毕竟我自己也是刚起步,所以这方面就不公开太多信息了

                      1 条回复 最后回复
                      1
                      • 5 566656661

                        我這幾天簡單試了ComfyUI的T2I和I2V, 以及看了看P站上的生成漫畫作為參考

                        穩定度最高的應該就是用T2I跟I2I, 外加人手修改, 基本上我看到的對話框有蠻明顯的後期添加元素

                        Civitai上面的(色色)漫畫分景Lora則比較難固定角色外觀, 而且分景的素質有時很難接受

                        A 在线
                        A 在线
                        abaalei
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #11

                        @566656661
                        哈哈,这个思路也不错!不过我目前走的是sfw的范围,nsfw在国内搞还是比较危险

                        5 1 条回复 最后回复
                        0
                        • A abaalei

                          @566656661
                          哈哈,这个思路也不错!不过我目前走的是sfw的范围,nsfw在国内搞还是比较危险

                          5 在线
                          5 在线
                          566656661
                          超凡大师
                          编写于 最后由 566656661 编辑
                          #12

                          @abaalei

                          可以試試看這個

                          Comic page generator | Illustrious Manga Boxes

                          https://civitai.com/models/1577414/comic-page-generator-or-illustrious-manga-boxes?modelVersionId=1785024

                          單純這樣看配合其他Lora的效果其實還不錯

                          基本上對話就一定要再修了, 要不然就像第二張圖這樣0對話再人手加

                          478d79ef-2369-4d10-85ca-ddcac769b258-image.jpeg

                          8baa9e7a-ef1f-4c24-8dec-200f8d39c0b3-image.jpeg

                          A 1 条回复 最后回复
                          0
                          • 5 566656661

                            @abaalei

                            可以試試看這個

                            Comic page generator | Illustrious Manga Boxes

                            https://civitai.com/models/1577414/comic-page-generator-or-illustrious-manga-boxes?modelVersionId=1785024

                            單純這樣看配合其他Lora的效果其實還不錯

                            基本上對話就一定要再修了, 要不然就像第二張圖這樣0對話再人手加

                            478d79ef-2369-4d10-85ca-ddcac769b258-image.jpeg

                            8baa9e7a-ef1f-4c24-8dec-200f8d39c0b3-image.jpeg

                            A 在线
                            A 在线
                            abaalei
                            技术大牛 劳动模范
                            编写于 最后由 编辑
                            #13

                            @566656661 感谢感谢!!回头我尝试一下!

                            1 条回复 最后回复
                            0
                            • williamlouisW williamlouis

                              @imbiplaza-ASUS 不错的思路。你那应该不受风云版权的管束吧?或改改名字和对白规避一下。

                              imbiplaza ASUSI 在线
                              imbiplaza ASUSI 在线
                              imbiplaza ASUS
                              技术大牛 劳动模范
                              编写于 最后由 编辑
                              #14

                              @williamlouis 叫ai 自己想办法

                              1 条回复 最后回复
                              0

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组