3060 12GB＋32GB RAM训练Qwen image lora的方法

Chango

前情提要

这个方法是我在b站那里找到的，视频链接是这个：【训练qwen-image lora只要12G显存+32G内存】 https://www.bilibili.com/video/BV1NX2cBfEyX/?share_source=copy_web&vd_source=60924e3b1564b24570efed32c49bbd91

作者是“赛博画师GZT”

背景

我其实是小白，在训练lora方面，从来只会在网上找别人成功的方案然后尝试。所以很深的东西我也不了解，还请各位哥哥见谅。

我使用的是12400f+32GB RAM+3060 12GB成功跑通了，成功训练出了脸模的lora。

不过代价就是非常慢，我训练了4000步，花费了24小时左右。

但是我已经很满足了，我找的其他教程都说训练Qwen image 的lora需要24GB的显存。
而aitoolkit的作者Ostris AI的视频里，发布了可以低于10GB训练qwen image 2509的lora，但是貌似要64GB RAM。

现在硬件价格非常离谱，我暂时不打算升级设备，而且我也不想花钱找云平台租显卡，但又非常想用qwen image edit rapid aio进行动漫转写实的过程中，套上人物的脸模lora，因此一直在找方法。

索性成功找到了以下的方法。

方案

这个方案是使用了如下的github开源工具
https://github.com/kohya-ss/musubi-tuner
https://github.com/sdbds/musubi-tuner-scripts

b站的UP已经把他调好参数的训练包提供了，如下：
https://pan.baidu.com/s/1Kysoag5rXawROgPqM6OUyw?pwd=1nrx

准备工作

使用方法是下载到上述百度网盘中的内容，随后把diffusion_models和text_encoder从hugging face或者modelscope上下载下来放到ckpts文件夹中。

diffusion_models不能使用完整的qwen image模型，一定要使用fp8量化过的，我使用的模型是：
https://huggingface.co/f5aiteam/Diffusion_Models/blob/main/qwen_image_fp8_e4m3fn.safetensors

text_encoder则不能使用fp8量化的，要用完整的模型，我使用的模型是:
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors

数据集准备

我的数据集其实只有10张图片（其实貌似可以更多），每张大小512x512。图片准备方法是找到10张人物的图片，越清晰越好，然后用PS开一个512x512的画布，把图片中的人脸放大到占满整个画布即可。
需要注意的是，图片中的人脸不要包含任何衣服和发饰。否则训练好的lora用来生成的时候权重高了可能会改变衣服和让头发带有发饰。

而qwen image的训练除了图像，还需要图像的打标。

其实我不是很懂打标，我问AI，AI说打标可以人工手写，例如写“kana girl”这样就够了。例如图片是kana001.png，那把kana girl放进kana001.txt就可以了。10张图都用kana girl，然后qwen image edit rapid AIO的clip里加上kana girl这个当触发词就可以了。

但不知道是这样不行，还是我试的时候训练步数不够（我第一次只炼了400步就去试了），貌似没有效果。

我实际测试可行的方法，是用qwen 3 VL来给图像打标，打标使用的提示词如下：
你是一个经验丰富的提示词反推专家。你的任务是根据给定的图像，生成一个详细且专业的ai图像提示词，主要提示词结构包括：主体（不要用文字提及主体两个词）、环境背景、人物服装、姿态动作、表情、构图拍摄角度、情感氛围、光影效果等，对于环境背景需要详细的描述，精准描述且不需要多余的废话，整理成一整段话,使用中文描述

然后把生成的文本，放进kana001.txt里。

关于触发词的问题，由于我打标后，10张图的内容里都有“年轻女性”，这个字样，因此我就拿“年轻女性”在生成的时候当触发词，最后可以使用。

我不知道是否qwen 3 VL打标之后，在文本里添加例如kana girl的字样是否会更好。之后各位有兴趣可以试试。

准备好了数据集，就可以把数据集的.png和.txt文件都放入/musubi-tuner-scriptstrain/image文件夹

脚本运行

脚本是使用windows的powershell运行的，脚本中有
0、install pwsh.sh
1、install-uv-qinglong.ps1
2.5、qwen_image_cache_latent_and_text_encoder.ps1
3.5、qwen_image_train_lora.ps1

其中0和1是安装环境用的，运行方法就是在脚本所在文件夹中右键运行“终端”
然后输入./0、install pwsh.sh和./1、install-uv-qinglong.ps1就能执行了。

更多内容可以看脚本的github:
https://github.com/sdbds/musubi-tuner-scripts

需要注意的是从B站UP的网盘下载的训练包，其中的环境那个UP是改过的，貌似只适配30系显卡？
其他显卡，可能要自行尝试或者问问AI怎么搞了。

配置好环境之后，powershell输入运行cache脚本：　.\2.5、qwen_image_cache_latent_and_text_encoder.ps1　
这个脚本是调用VAE和text_encoder把生成cache，生成的cache在train/image/cache文件夹中。如果进行下一次训练，可以手动清空这个文件夹，再运行这个脚本。

再之后就可以运行第三个3.5、qwen_image_train_lora.ps1这个脚本了。
但需要注意，这个脚本需要手动设置，右键打开方式选择用txt文本编辑器可以编辑脚本中的命令行，最大训练步数和最大训练轮数需要修改。UP貌似提供的最开始只有20轮200步还是40轮400步，肯定是不够的。后面我修改成了400轮4000步。
这个脚本中，有中文注释，如果有懂调试其他参数的哥哥们，那就各凭本事了。

我只改了步数和轮数，其他的没有动，然后就可以powershell输入./3.5、qwen_image_train_lora.ps1运行了。

运行的时候3060 12GB的3D性能并不能跑满速，12400f的CPU占用反而来到了50％左右。
这貌似是脚本经过UP的设置，offload了相当一部分模型内容到内存里了？所以内存和显存之间的数据交换需要CPU？
其实我也不懂，但4000步跑完24小时之后，成功生成了我想要的脸模。

terry

不明觉厉，但是要训练Lora，何必折腾3060这种卡呢，浪费的时间也足够买张好卡了吧。

Chango

@terry 穷

566656661

@Chango

簡單但有力的原因

抡锤者

3060 12GB＋32GB RAM训练Qwen image lora的方法