设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程

lora模型训练2年前 (2023)更新 wanglu852

44,986 0 0

在教程开始之前，我需要强调这个教程并不适合新手。我默认你已经熟悉了stablediffusion的操作，并且掌握了lora炼丹的基本知识。如果你刚刚接触炼丹，我建议你先观看其他优秀up主提供的相关教程内容。

我分享的更多是在实践过程中总结出来的个人观点。作为一名没有算法知识背景的建筑师，他并不能保证视频中所提到的内容在理论层面上的准确性。为了让大家更容易理解，会尽量使用类比的例子来解释。

底膜和Lora的配合

底膜和LoRA是如何配合生出需要的图片的呢？图像生成模块又包含两个部分：图像信息创建器和图像信息解码器。图像信息创建器中运行着一个叫做diffusion的过程，也就是扩散。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
它通过增加噪声的方式对图片进行扩散，使其变得模糊，类似于眯起眼睛过滤掉细节和干扰，集中注意力于物体的基本形状和重要特征。 $设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$

什么叫扩散？素描中的眯眼观察方法举例

传统绘画学习绘画主题时，眯眼过滤细节和干扰，集中注意力于基本形状和重要特征，将特征绘制到纸上。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
AI中的扩散方法是通过增加噪声使图片模糊，使用深度学习方法将图像转换成抽象概念，每学一张图会与文本理解模块合作提取图像信息特征，建立关联并进行分组压缩到一个潜空间黑盒子里。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
当你给AI一张图片并要求生成指定风格的室内客厅，AI按照眯眼观察的方式处理图片，到黑盒子里提取与指定风格相关的特征并用自己的理解重构图像并逆向扩散去除噪声，让图片变清晰，最后通过图像信息解码器从黑盒中生成并呈现最终画面。

Lora模型的作用

LORA模型可以理解为你给设计师的特定视觉材料或对象，细节参考手册。LORA能够提供更具体更清晰的指导，创造出更符合你预期的作品。

为什么要选择lora炼丹

LORA是其中一种炼制模型，与dream booth微调模型相比，LORA具有更快的训练时间和较低的显存需求，同时效果也不明显差距。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$

设计类LAURA特点及分类

设计类LORA与人物和二次元LORA有一些区别，包括设计风格、画面分为、还原性等方面的差异。在人物类LORA训练中，还原性是第一核心，而设计类的LORA需要与 controlnet控制相配合。

LAURA的三个维度

LORA的三个维度分别是易调用性、泛化性和还原性。每一个LORA只能满足其中的两项。在设计类LORA中，根据实际需求来判断是要以还原性和泛化性哪一个为首要追求目标，并平衡这三者的关系。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
（上图大模型三个维度，下图是lora模型三个维度）
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
每个lora只能完美满足其中两项。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$

影响LAURA质量效果的因素

在使用LORA炼制模型时，可能会遇到一些问题和限制。设计类LORA需要与controlnet控制相配合，可能在受控制状态下的表现效果不如自由状态。此外，LORA的泛化性可能导致在控制状态下的表现效果不如在无控制状态下。

设计类LORA的五种类型

设计类LORA可以分为五种，功能性lora、造型类lora，画面气氛lora，设计风格lora、产品类lora等。其中，功能性LORA可能会在一定程度上牺牲还原性，以达到易调用性和泛化性的平衡。在炼制设计类LORA时，需要考虑还原性、易调用性和泛化性之间的平衡关系。根据实际需求来判断，是以还原性为首要追求目标，还是以泛化性和易调用性为重要考量。在炼制过程中，会有一些因素影响LORA的调用性、还原性和泛化性。例如，设计类LAURA可能需要与controlnet控制相配合，而泛化性可能导致在受控制状态下的表现效果不如无控制状态下。此外，使用不同的提示词也会对LORA的性能产生影响。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$

在练丹过程中哪些因素会影响这三个维度呢？

易调用性，最容易能过打标来实现的，只打一个召唤词，非常不推荐。
还原性，则只要在素材及质量过硬的前提下通过正确打标调参练制到拟合即可一遍不行就多来几遍。
泛化性则是我个人认为最麻烦的一部分直接与素材集的数量与处理技巧相关当然同时也会受到打标和调参的影响关于打标我这里大概提一句经过我自己测试单个tag的打标方式更适合高还原性自然语言的打标方式更适合高泛化性。
还原性和泛化性是两个重要目标。还原性指的是文章能够准确还原用户搜索的意图，泛化性指的是文章能够适用于更广泛的相关搜索。在追求还原性和泛化性的过程中，需要平衡这两者的关系。一方面，要确保文章能够准确还原用户的搜索意图，提供有用的信息。另一方面，要确保文章能够适用于更广泛的相关搜索，吸引更多的用户。

LORA训练的基本流程

LORA训练的基本流程包括素材收集处理、图像预处理、调参训练和模型测试调优。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$

影响设计类LAURA质量效果的因素

影响设计类LORA质量效果的因素包括重要性排序、分层控制、调用小于炼制、调参小于达标以及素材集的收集处理。素材集的质量至少占70分，打标占10分，调参和调优共占十分，剩下的10分看天意。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
对于初次接触炼丹的人来说，建议从画面氛围和设计风格类的LORA入手。素材集的数量在保证质量的前提下，推荐大于40张。

如果使用的炼丹脚本支持神童优化器，可以直接使用该优化器来提高还原性。但是，这会牺牲一定的泛化性。
如果使用的炼丹脚本不支持神童优化器(很高的还原性，牺牲泛化性），可以参考其他模型的参数设置来提高还原性和泛化性。在下图可以看到作者打标训练参数。
$设计类LORA基本逻辑概念\建筑室内景观STABLE DIFFISION炼丹\全网首发设计类炼丹教程$
关于SD xl的训练，目前并不推荐尝试，因为对显存的要求较高，并且只能训练部分内容。

up：大咦把狼-老王

# lora模型训练