“从新手到专家：StableDiffusion模型训练的全面攻略！”

AI前沿2年前 (2024)发布 wanglu852

22,261 0 0

“从新手到专家：StableDiffusion模型训练的全面攻略！”

引言

这里是nenly，一个练习时长两年半的个人up，喜欢做一些你能学到位的教程。主讲了三门播放量在百万级别的软件课，带领了超过 7 位数的朋友掌握一项硬气呢。我从今年4月开始更新 stable diffusion 相关的教学视频，从那时起就有很多观众期待看到一节与模型训练相关的教程，造就了 SD 在目前 AI 图像生成领域领先地位呢。

模型训练的重要性

除了它开源免费和本地部署的特性，最重要的一点就是它开放且包罗万象的模型生态，我们今天用来出图作画的模型超过 99% 都是由个人用户训练的微调模型，他们不仅弥补了原版模型绘制精度不足的局限性，还可以让任何一种你想要的风格、形式，甚至是人物物品出现在 AI 生成作品里，让 AI 绘画从真正意义上摆脱了抽卡式的随机性。这是 SD 与 MID journey Dall e 的 b 原图像生成应用最大的区别之一。

教程内容概览

在接下来的 20 分钟里，我们将系统的开启模型训练的第一课，了解 AI 模型的本质， stable diversion 的工作原理，一系列主流模型训练手段和他们之间的差异，并真正体验练出一个模型的完整过程。这个全新的系列预计会更新 5 节内容，他们会带你由浅入深的掌握包括textual、inversion、Lora、dream、 Booth 等多种对模型进行微调训练的方法。

AI图像生成模型的学习过程

AI学习过程：提供数据，引导机器学习的过程成为模型的训练。
训练结果：得到一系列可以让 AI 表现得更好的知识，也就是模型。
推理过程：运用模型解决问题的过程。

AI图像生成模型的工作原理

数据集：研究者们通过互联网抓取下来的海量图片，连同用于描述他们的文字信息，构成了用来训练的数据集。
像素分布规律：图片里蕴含的像素分布规律，解释不同颜色的点是如何排列组合形成各种事物的。

stable diffusion模型训练

训练操作：在 stable diffusion Web UI 里，操作可以总结为一套固定流程。
模型工作逻辑：AI 将提示词分解成独立的token，使用文本编码器转换成词源向量，通过噪声预测器扩散生成图片。

模型训练的数据集

stable diffusion 1.1 版本模型：使用了当时世界上最大规模的多模态图文数据集 Lion 2B 来训练。
训练成本：使用大约 256 块英伟达 A100 GPU，训练了将近 15 万小时。

微调模型的基本概念

微调：在官方已经花费大成本、大力气训练好又开源出来的模型上做的二次加工。
预训练模型：开源大模型，公司预先帮我们做好的 12 年义务教育。

主流微调训练手法

dream Boots Lora 和 textual inversion：三种主流微调训练手法，分别对应 checkpoint 大模型、Lora 模型以及 embedics 模型。

训练对设备的需求

显存大小：训练方法对电脑 GPU 的显存大小有要求，Boost 训练大模型的要求最高，Lora 配置要求最低。

模型训练的云计算服务

云计算服务：可以在很多平台上以合理的成本租用GPU，轻松实现在线训练。

模型融合

模型融合：Lora 和 Lora 之间可以互相融合，甚至可以把 Lora 模型融进大模型里。

embedding微调模型

embedding文件：轻量小巧的微调模型格式，文件名后缀一般为点PT。
训练步骤：准备训练集、图片预处理、调节训练参数。

训练embedding的详细步骤

准备训练集：找一些特定人物的图片作为额外的训练集。
图片预处理：裁剪和打标图片，使其符合模型训练规范。
调节训练参数：在Web UI中新建embedding，选择训练数据集目录，设置训练底膜。

训练embedding的逻辑

训练逻辑：AI根据描述成分生成图像，与训练数据集的图像比较，通过差异程度引导AI微调嵌入向量。

训练embedding的效果验证

效果验证：在文生图界面使用训练好的embedding，观察生成的图片效果。

结语

希望这个小案例可以帮助你了解模型训练的原理和基本逻辑。如果对模型训练感兴趣，可以继续收看后续教程，探索更多微调模型的奥秘。

搜索标签

# AI前沿 # AI图像生成 # embedding微调 # stable_diffusion # 云计算服务 # 微调模型 # 模型融合 # 模型训练

文章版权归作者所有，未经允许请勿转载。

AI画笔魔法：图生图全攻略，释放你的创作潜力！

wanglu852

11,509

GPT-4o创意生图：手办盲盒/涂鸦笔记/双面人像，玩转AI图像生成

wang, yizzcn

13,676

如何以超低价格体验满血AI模型？Cursor 穷鬼套餐 5.0 超前版深度解析

wang, yizzcn

26,294

DeepSeek-R1：一家非美公司的开源壮举，挑战AI发展格局

wang, yizzcn

40,286

微软发布 Phi-4：小模型，大能量，如何实现超越？

wang, yizzcn

13,258

【终极指南】利用种子词提示掌控ChatGPT生成神级文本！-chatgpt提示词写作技巧

wanglu852

22,636

“从新手到专家：StableDiffusion模型训练的全面攻略！”

“从新手到专家：StableDiffusion模型训练的全面攻略！”

引言

模型训练的重要性

教程内容概览

AI图像生成模型的学习过程

AI图像生成模型的工作原理

stable diffusion模型训练

模型训练的数据集

微调模型的基本概念

主流微调训练手法

训练对设备的需求

模型训练的云计算服务

模型融合

embedding微调模型

训练embedding的详细步骤

训练embedding的逻辑

训练embedding的效果验证

结语

搜索标签

数字人算法大揭秘：Wav2Lip vs. SadTalker，唇音同步对决，究竟哪个更强大？

Vercel：快速部署静态网站和无服务器函数的流行云平台

相关文章

相关文章