<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[3060 12GB＋32GB RAM训练Qwen image lora的方法]]></title><description><![CDATA[<p dir="auto"><strong>前情提要</strong></p>
<p dir="auto">这个方法是我在b站那里找到的，视频链接是这个：【训练qwen-image lora只要12G显存+32G内存】 <a href="https://www.bilibili.com/video/BV1NX2cBfEyX/?share_source=copy_web&amp;vd_source=60924e3b1564b24570efed32c49bbd91" rel="nofollow ugc">https://www.bilibili.com/video/BV1NX2cBfEyX/?share_source=copy_web&amp;vd_source=60924e3b1564b24570efed32c49bbd91</a></p>
<p dir="auto">作者是“赛博画师GZT”</p>
<p dir="auto"><strong>背景</strong></p>
<p dir="auto">我其实是小白，在训练lora方面，从来只会在网上找别人成功的方案然后尝试。所以很深的东西我也不了解，还请各位哥哥见谅。</p>
<p dir="auto">我使用的是12400f+32GB RAM+3060 12GB成功跑通了，成功训练出了脸模的lora。</p>
<p dir="auto">不过代价就是非常慢，我训练了4000步，花费了24小时左右。</p>
<p dir="auto">但是我已经很满足了，我找的其他教程都说训练Qwen image 的lora需要24GB的显存。<br />
而aitoolkit的作者Ostris AI的视频里，发布了可以低于10GB训练qwen image 2509的lora，但是貌似要64GB RAM。</p>
<p dir="auto">现在硬件价格非常离谱，我暂时不打算升级设备，而且我也不想花钱找云平台租显卡，但又非常想用qwen image edit rapid aio进行动漫转写实的过程中，套上人物的脸模lora，因此一直在找方法。</p>
<p dir="auto">索性成功找到了以下的方法。</p>
<p dir="auto"><strong>方案</strong></p>
<p dir="auto">这个方案是使用了如下的github开源工具<br />
<a href="https://github.com/kohya-ss/musubi-tuner" rel="nofollow ugc">https://github.com/kohya-ss/musubi-tuner</a><br />
<a href="https://github.com/sdbds/musubi-tuner-scripts" rel="nofollow ugc">https://github.com/sdbds/musubi-tuner-scripts</a></p>
<p dir="auto">b站的UP已经把他调好参数的训练包提供了，如下：<br />
<a href="https://pan.baidu.com/s/1Kysoag5rXawROgPqM6OUyw?pwd=1nrx" rel="nofollow ugc">https://pan.baidu.com/s/1Kysoag5rXawROgPqM6OUyw?pwd=1nrx</a></p>
<p dir="auto"><strong>准备工作</strong></p>
<p dir="auto">使用方法是下载到上述百度网盘中的内容，随后把diffusion_models和text_encoder从hugging face或者modelscope上下载下来放到ckpts文件夹中。</p>
<p dir="auto">diffusion_models不能使用完整的qwen image模型，一定要使用fp8量化过的，我使用的模型是：<br />
<a href="https://huggingface.co/f5aiteam/Diffusion_Models/blob/main/qwen_image_fp8_e4m3fn.safetensors" rel="nofollow ugc">https://huggingface.co/f5aiteam/Diffusion_Models/blob/main/qwen_image_fp8_e4m3fn.safetensors</a></p>
<p dir="auto">text_encoder则不能使用fp8量化的，要用完整的模型，我使用的模型是:<br />
<a href="https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors" rel="nofollow ugc">https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors</a></p>
<p dir="auto"><strong>数据集准备</strong></p>
<p dir="auto">我的数据集其实只有10张图片（其实貌似可以更多），每张大小512x512。图片准备方法是找到10张人物的图片，越清晰越好，然后用PS开一个512x512的画布，把图片中的人脸放大到占满整个画布即可。<br />
需要注意的是，图片中的人脸不要包含任何衣服和发饰。否则训练好的lora用来生成的时候权重高了可能会改变衣服和让头发带有发饰。</p>
<p dir="auto">而qwen image的训练除了图像，还需要图像的打标。</p>
<p dir="auto">其实我不是很懂打标，我问AI，AI说打标可以人工手写，例如写“kana girl”这样就够了。例如图片是kana001.png，那把kana girl放进kana001.txt就可以了。10张图都用kana girl，然后qwen image edit rapid AIO的clip里加上kana girl这个当触发词就可以了。</p>
<p dir="auto">但不知道是这样不行，还是我试的时候训练步数不够（我第一次只炼了400步就去试了），貌似没有效果。</p>
<p dir="auto">我实际测试可行的方法，是用qwen 3 VL来给图像打标，打标使用的提示词如下：<br />
你是一个经验丰富的提示词反推专家。你的任务是根据给定的图像，生成一个详细且专业的ai图像提示词，主要提示词结构包括：主体（不要用文字提及主体两个词）、环境背景、人物服装、姿态动作、表情、构图拍摄角度、情感氛围、光影效果等，对于环境背景需要详细的描述，精准描述且不需要多余的废话，整理成一整段话,使用中文描述</p>
<p dir="auto">然后把生成的文本，放进kana001.txt里。</p>
<p dir="auto">关于触发词的问题，由于我打标后，10张图的内容里都有“年轻女性”，这个字样，因此我就拿“年轻女性”在生成的时候当触发词，最后可以使用。</p>
<p dir="auto">我不知道是否qwen 3 VL打标之后，在文本里添加例如kana girl的字样是否会更好。之后各位有兴趣可以试试。</p>
<p dir="auto">准备好了数据集，就可以把数据集的.png和.txt文件都放入/musubi-tuner-scriptstrain/image文件夹</p>
<p dir="auto"><strong>脚本运行</strong></p>
<p dir="auto">脚本是使用windows的powershell运行的，脚本中有<br />
0、install <a href="http://pwsh.sh" rel="nofollow ugc">pwsh.sh</a><br />
1、install-uv-qinglong.ps1<br />
2.5、qwen_image_cache_latent_and_text_encoder.ps1<br />
3.5、qwen_image_train_lora.ps1</p>
<p dir="auto">其中0和1是安装环境用的，运行方法就是在脚本所在文件夹中右键运行“终端”<br />
然后输入./0、install pwsh.sh和./1、install-uv-qinglong.ps1就能执行了。</p>
<p dir="auto">更多内容可以看脚本的github:<br />
<a href="https://github.com/sdbds/musubi-tuner-scripts" rel="nofollow ugc">https://github.com/sdbds/musubi-tuner-scripts</a></p>
<p dir="auto">需要注意的是从B站UP的网盘下载的训练包，其中的环境那个UP是改过的，貌似只适配30系显卡？<br />
其他显卡，可能要自行尝试或者问问AI怎么搞了。</p>
<p dir="auto">配置好环境之后，powershell输入运行cache脚本：　.\2.5、qwen_image_cache_latent_and_text_encoder.ps1　<br />
这个脚本是调用VAE和text_encoder把生成cache，生成的cache在train/image/cache文件夹中。如果进行下一次训练，可以手动清空这个文件夹，再运行这个脚本。</p>
<p dir="auto">再之后就可以运行第三个3.5、qwen_image_train_lora.ps1这个脚本了。<br />
但需要注意，这个脚本需要手动设置，右键打开方式选择用txt文本编辑器可以编辑脚本中的命令行，最大训练步数和最大训练轮数需要修改。UP貌似提供的最开始只有20轮200步还是40轮400步，肯定是不够的。后面我修改成了400轮4000步。<br />
这个脚本中，有中文注释，如果有懂调试其他参数的哥哥们，那就各凭本事了。</p>
<p dir="auto">我只改了步数和轮数，其他的没有动，然后就可以powershell输入./3.5、qwen_image_train_lora.ps1运行了。</p>
<p dir="auto">运行的时候3060 12GB的3D性能并不能跑满速，12400f的CPU占用反而来到了50％左右。<br />
这貌似是脚本经过UP的设置，offload了相当一部分模型内容到内存里了？所以内存和显存之间的数据交换需要CPU？<br />
其实我也不懂，但4000步跑完24小时之后，成功生成了我想要的脸模。</p>
]]></description><link>https://lcz.me/topic/448/3060-12gb-32gb-ram训练qwen-image-lora的方法</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:37 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/448.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 06 Jun 2026 09:37:21 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 3060 12GB＋32GB RAM训练Qwen image lora的方法 on Sat, 06 Jun 2026 13:07:11 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chango" aria-label="Profile: Chango">@<bdi>Chango</bdi></a></p>
<p dir="auto">簡單但有力的原因<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title=":joy:" alt="😂" /></p>
]]></description><link>https://lcz.me/post/5366</link><guid isPermaLink="true">https://lcz.me/post/5366</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sat, 06 Jun 2026 13:07:11 GMT</pubDate></item><item><title><![CDATA[Reply to 3060 12GB＋32GB RAM训练Qwen image lora的方法 on Sat, 06 Jun 2026 13:05:56 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 穷<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f622.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--cry" style="height:23px;width:auto;vertical-align:middle" title=":cry:" alt="😢" /></p>
]]></description><link>https://lcz.me/post/5365</link><guid isPermaLink="true">https://lcz.me/post/5365</guid><dc:creator><![CDATA[Chango]]></dc:creator><pubDate>Sat, 06 Jun 2026 13:05:56 GMT</pubDate></item><item><title><![CDATA[Reply to 3060 12GB＋32GB RAM训练Qwen image lora的方法 on Sat, 06 Jun 2026 12:20:31 GMT]]></title><description><![CDATA[<p dir="auto">不明觉厉，但是要训练Lora，何必折腾3060这种卡呢，浪费的时间也足够买张好卡了吧。</p>
]]></description><link>https://lcz.me/post/5354</link><guid isPermaLink="true">https://lcz.me/post/5354</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 06 Jun 2026 12:20:31 GMT</pubDate></item></channel></rss>