SDXL-Turbo：一秒生成逼真图像，快速文本到图像模型

简介

SDXL-Turbo是一种快速的生成文本到图像模型，可以在单个网络评估中从文本提示中合成逼真的图像。它是SDXL 1.0的精简版本，专为实时合成而训练。SDXL-Turbo使用一种名为Adversarial Diffusion Distillation（ADD）的训练方法，可以在1至4个步骤中采样高质量的大规模基础图像扩散模型。该方法利用分数蒸馏来利用大规模现有的图像扩散模型作为教师信号，并结合对抗性损失来确保即使在一到两个采样步骤的低步骤区间中，也能保持高图像保真度。

模型详细信息

开发者：Stability AI
资助单位：Stability AI
模型类型：生成文本到图像模型
基于模型进行微调：SDXL 1.0基础模型

模型来源

为了研究目的，推荐使用SDXL-Turbo模型的源代码可以在Github仓库中找到。该仓库提供了最流行的扩散框架的实现，包括训练和推理。

代码仓库：https://github.com/Stability-AI/generative-models
论文：https://stability.ai/research/adversarial-diffusion-distillation
演示：http://clipdrop.co/stable-diffusion-turbo

评估

上述图表评估了用户对SDXL-Turbo与其他单步和多步模型的偏好。在图像质量和提示语遵循方面，用户更喜欢单步评估的SDXL-Turbo，而不是四步或更少步骤的LCM-XL。此外，使用四步的SDXL-Turbo进一步提高了性能。有关用户研究的详细信息，请参阅研究论文。

使用场景

直接使用

SDXL-Turbo模型仅供研究目的使用。它可用于各种研究领域和任务，包括：

生成模型的研究
生成模型实时应用的研究
实时生成模型的影响研究
部署具有生成有害内容潜力的模型的安全性
探索和理解生成模型的局限性和偏差
生成艺术品并用于设计和其他艺术过程
教育或创意工具的应用

排除的使用场景

以下使用场景被排除在外：

扩散器
使用某些配置进行生成文本到图像的处理

安装和使用

生成文本到图像

要安装生成文本到图像所需的软件包，可以使用pip来安装必要的依赖项：

pip install diffusers transformers accelerate --upgrade

接下来，您可以导入所需的模块并创建AutoPipelineForText2Image类的实例：

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

prompt = "一个穿着复杂的意大利牧师袍的小浣熊的一张电影般的镜头。"

image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

生成图像到图像

对于使用SDXL-Turbo进行图像到图像的生成，请确保num_inference_steps大于等于1。流程将根据所指定的步骤数进行运行。

from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image

pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))

prompt = "猫巫师，甘道夫，指环王，细节，奇幻，可爱，迷人，皮克斯，迪士尼，8k"

image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]

限制和偏见

SDXL-Turbo模型存在一些限制和偏见：

生成的图像为固定分辨率（512×512像素），可能无法达到完美的逼真效果。
该模型无法渲染清晰可读的文本。
生成的人脸和人物可能不正确。
模型的自编码部分是有损的。

开始使用该模型

要了解有关SDXL-Turbo模型的更多信息并开始使用它，请参考Github仓库。

AI前沿

文章版权归作者所有，未经允许请勿转载。

Gemini 3.0发布：谷歌掀桌，多模态AI新霸主？

AI前沿 # Agent # AI # AI模型

7个月前

15,5700

OPENAI公司GPT-4V多模态上线！

AI前沿

3年前

21,9590

TrendRadar: 全网热点聚合工具，5万星标的AI热点监控系统

AI前沿 # AI监控 # GitHub # TrendRadar

2个月前

5,2810

AI工具选择指南：Trae IDE代码补全更准？Gemini 2.0文理兼修？别做“做题家模型”！

AI前沿 # AI工具选择 # AI模型对比 # IDE

1年前

37,7000

SDXL-Turbo：一秒生成逼真图像，快速文本到图像模型

简介

模型详细信息

模型来源

评估

使用场景

直接使用

排除的使用场景

安装和使用

生成文本到图像

生成图像到图像

限制和偏见

推荐事项

开始使用该模型

sdxl-turbo模型详解

FP16和FP32（单精度浮点数）模型有什么区别？分别什么意思？

相关文章

Gemini 3.0发布：谷歌掀桌，多模态AI新霸主？

OPENAI公司GPT-4V多模态上线！

TrendRadar: 全网热点聚合工具，5万星标的AI热点监控系统

AI工具选择指南：Trae IDE代码补全更准？Gemini 2.0文理兼修？别做“做题家模型”！

热门文章

智能体

SDXL-Turbo：一秒生成逼真图像，快速文本到图像模型

简介

模型详细信息

模型来源

评估

使用场景

直接使用

排除的使用场景

安装和使用

生成文本到图像

生成图像到图像

限制和偏见

推荐事项

开始使用该模型

sdxl-turbo模型详解

FP16和FP32（单精度浮点数）模型有什么区别？分别什么意思？

相关文章

Gemini 3.0发布：谷歌掀桌，多模态AI新霸主？

OPENAI公司GPT-4V多模态上线！

TrendRadar: 全网热点聚合工具，5万星标的AI热点监控系统

AI工具选择指南：Trae IDE代码补全更准？Gemini 2.0文理兼修？别做“做题家模型”！

标签云

热门文章

智能体