跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI进阶话题
  3. 3060 12GB+32GB RAM训练Qwen image lora的方法

3060 12GB+32GB RAM训练Qwen image lora的方法

已定时 已固定 已锁定 已移动 AI进阶话题
4 帖子 3 发布者 138 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • C 离线
    C 离线
    Chango
    编写于 最后由 编辑
    #1

    前情提要

    这个方法是我在b站那里找到的,视频链接是这个:【训练qwen-image lora只要12G显存+32G内存】 https://www.bilibili.com/video/BV1NX2cBfEyX/?share_source=copy_web&vd_source=60924e3b1564b24570efed32c49bbd91

    作者是“赛博画师GZT”

    背景

    我其实是小白,在训练lora方面,从来只会在网上找别人成功的方案然后尝试。所以很深的东西我也不了解,还请各位哥哥见谅。

    我使用的是12400f+32GB RAM+3060 12GB成功跑通了,成功训练出了脸模的lora。

    不过代价就是非常慢,我训练了4000步,花费了24小时左右。

    但是我已经很满足了,我找的其他教程都说训练Qwen image 的lora需要24GB的显存。
    而aitoolkit的作者Ostris AI的视频里,发布了可以低于10GB训练qwen image 2509的lora,但是貌似要64GB RAM。

    现在硬件价格非常离谱,我暂时不打算升级设备,而且我也不想花钱找云平台租显卡,但又非常想用qwen image edit rapid aio进行动漫转写实的过程中,套上人物的脸模lora,因此一直在找方法。

    索性成功找到了以下的方法。

    方案

    这个方案是使用了如下的github开源工具
    https://github.com/kohya-ss/musubi-tuner
    https://github.com/sdbds/musubi-tuner-scripts

    b站的UP已经把他调好参数的训练包提供了,如下:
    https://pan.baidu.com/s/1Kysoag5rXawROgPqM6OUyw?pwd=1nrx

    准备工作

    使用方法是下载到上述百度网盘中的内容,随后把diffusion_models和text_encoder从hugging face或者modelscope上下载下来放到ckpts文件夹中。

    diffusion_models不能使用完整的qwen image模型,一定要使用fp8量化过的,我使用的模型是:
    https://huggingface.co/f5aiteam/Diffusion_Models/blob/main/qwen_image_fp8_e4m3fn.safetensors

    text_encoder则不能使用fp8量化的,要用完整的模型,我使用的模型是:
    https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors

    数据集准备

    我的数据集其实只有10张图片(其实貌似可以更多),每张大小512x512。图片准备方法是找到10张人物的图片,越清晰越好,然后用PS开一个512x512的画布,把图片中的人脸放大到占满整个画布即可。
    需要注意的是,图片中的人脸不要包含任何衣服和发饰。否则训练好的lora用来生成的时候权重高了可能会改变衣服和让头发带有发饰。

    而qwen image的训练除了图像,还需要图像的打标。

    其实我不是很懂打标,我问AI,AI说打标可以人工手写,例如写“kana girl”这样就够了。例如图片是kana001.png,那把kana girl放进kana001.txt就可以了。10张图都用kana girl,然后qwen image edit rapid AIO的clip里加上kana girl这个当触发词就可以了。

    但不知道是这样不行,还是我试的时候训练步数不够(我第一次只炼了400步就去试了),貌似没有效果。

    我实际测试可行的方法,是用qwen 3 VL来给图像打标,打标使用的提示词如下:
    你是一个经验丰富的提示词反推专家。你的任务是根据给定的图像,生成一个详细且专业的ai图像提示词,主要提示词结构包括:主体(不要用文字提及主体两个词)、环境背景、人物服装、姿态动作、表情、构图拍摄角度、情感氛围、光影效果等,对于环境背景需要详细的描述,精准描述且不需要多余的废话,整理成一整段话,使用中文描述

    然后把生成的文本,放进kana001.txt里。

    关于触发词的问题,由于我打标后,10张图的内容里都有“年轻女性”,这个字样,因此我就拿“年轻女性”在生成的时候当触发词,最后可以使用。

    我不知道是否qwen 3 VL打标之后,在文本里添加例如kana girl的字样是否会更好。之后各位有兴趣可以试试。

    准备好了数据集,就可以把数据集的.png和.txt文件都放入/musubi-tuner-scriptstrain/image文件夹

    脚本运行

    脚本是使用windows的powershell运行的,脚本中有
    0、install pwsh.sh
    1、install-uv-qinglong.ps1
    2.5、qwen_image_cache_latent_and_text_encoder.ps1
    3.5、qwen_image_train_lora.ps1

    其中0和1是安装环境用的,运行方法就是在脚本所在文件夹中右键运行“终端”
    然后输入./0、install pwsh.sh和./1、install-uv-qinglong.ps1就能执行了。

    更多内容可以看脚本的github:
    https://github.com/sdbds/musubi-tuner-scripts

    需要注意的是从B站UP的网盘下载的训练包,其中的环境那个UP是改过的,貌似只适配30系显卡?
    其他显卡,可能要自行尝试或者问问AI怎么搞了。

    配置好环境之后,powershell输入运行cache脚本: .\2.5、qwen_image_cache_latent_and_text_encoder.ps1 
    这个脚本是调用VAE和text_encoder把生成cache,生成的cache在train/image/cache文件夹中。如果进行下一次训练,可以手动清空这个文件夹,再运行这个脚本。

    再之后就可以运行第三个3.5、qwen_image_train_lora.ps1这个脚本了。
    但需要注意,这个脚本需要手动设置,右键打开方式选择用txt文本编辑器可以编辑脚本中的命令行,最大训练步数和最大训练轮数需要修改。UP貌似提供的最开始只有20轮200步还是40轮400步,肯定是不够的。后面我修改成了400轮4000步。
    这个脚本中,有中文注释,如果有懂调试其他参数的哥哥们,那就各凭本事了。

    我只改了步数和轮数,其他的没有动,然后就可以powershell输入./3.5、qwen_image_train_lora.ps1运行了。

    运行的时候3060 12GB的3D性能并不能跑满速,12400f的CPU占用反而来到了50%左右。
    这貌似是脚本经过UP的设置,offload了相当一部分模型内容到内存里了?所以内存和显存之间的数据交换需要CPU?
    其实我也不懂,但4000步跑完24小时之后,成功生成了我想要的脸模。

    1 条回复 最后回复
    0
    • ,terryT terry 将此主题从 AI音视频画图 移至此处
    • terryT 离线
      terryT 离线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      不明觉厉,但是要训练Lora,何必折腾3060这种卡呢,浪费的时间也足够买张好卡了吧。

      油管:https://www.youtube.com/@抡锤者

      C 1 条回复 最后回复
      0
      • terryT terry

        不明觉厉,但是要训练Lora,何必折腾3060这种卡呢,浪费的时间也足够买张好卡了吧。

        C 离线
        C 离线
        Chango
        编写于 最后由 编辑
        #3

        @terry 穷😢

        5 1 条回复 最后回复
        1
        • C Chango

          @terry 穷😢

          5 在线
          5 在线
          566656661
          超凡大师
          编写于 最后由 编辑
          #4

          @Chango

          簡單但有力的原因😂

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组