简介
SDXL-Turbo是一种快速的生成文本到图像模型,可以在单个网络评估中从文本提示中合成逼真的图像。它是SDXL 1.0的精简版本,专为实时合成而训练。SDXL-Turbo使用一种名为Adversarial Diffusion Distillation(ADD)的训练方法,可以在1至4个步骤中采样高质量的大规模基础图像扩散模型。该方法利用分数蒸馏来利用大规模现有的图像扩散模型作为教师信号,并结合对抗性损失来确保即使在一到两个采样步骤的低步骤区间中,也能保持高图像保真度。
模型详细信息
- 开发者:Stability AI
- 资助单位:Stability AI
- 模型类型:生成文本到图像模型
- 基于模型进行微调:SDXL 1.0基础模型
模型来源
为了研究目的,推荐使用SDXL-Turbo模型的源代码可以在Github仓库中找到。该仓库提供了最流行的扩散框架的实现,包括训练和推理。
- 代码仓库:https://github.com/Stability-AI/generative-models
- 论文:https://stability.ai/research/adversarial-diffusion-distillation
- 演示:http://clipdrop.co/stable-diffusion-turbo
评估
上述图表评估了用户对SDXL-Turbo与其他单步和多步模型的偏好。在图像质量和提示语遵循方面,用户更喜欢单步评估的SDXL-Turbo,而不是四步或更少步骤的LCM-XL。此外,使用四步的SDXL-Turbo进一步提高了性能。有关用户研究的详细信息,请参阅研究论文。
使用场景
直接使用
SDXL-Turbo模型仅供研究目的使用。它可用于各种研究领域和任务,包括:
- 生成模型的研究
- 生成模型实时应用的研究
- 实时生成模型的影响研究
- 部署具有生成有害内容潜力的模型的安全性
- 探索和理解生成模型的局限性和偏差
- 生成艺术品并用于设计和其他艺术过程
- 教育或创意工具的应用
排除的使用场景
以下使用场景被排除在外:
- 扩散器
- 使用某些配置进行生成文本到图像的处理
安装和使用
生成文本到图像
要安装生成文本到图像所需的软件包,可以使用pip
来安装必要的依赖项:
pip install diffusers transformers accelerate --upgrade
接下来,您可以导入所需的模块并创建AutoPipelineForText2Image
类的实例:
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "一个穿着复杂的意大利牧师袍的小浣熊的一张电影般的镜头。"
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
生成图像到图像
对于使用SDXL-Turbo进行图像到图像的生成,请确保num_inference_steps
大于等于1。流程将根据所指定的步骤数进行运行。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "猫巫师,甘道夫,指环王,细节,奇幻,可爱,迷人,皮克斯,迪士尼,8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
限制和偏见
SDXL-Turbo模型存在一些限制和偏见:
- 生成的图像为固定分辨率(512×512像素),可能无法达到完美的逼真效果。
- 该模型无法渲染清晰可读的文本。
- 生成的人脸和人物可能不正确。
- 模型的自编码部分是有损的。
推荐事项
SDXL-Turbo模型仅供研究目的使用。
开始使用该模型
要了解有关SDXL-Turbo模型的更多信息并开始使用它,请参考Github仓库。
© 版权声明
文章版权归作者所有,未经允许请勿转载。