简介
Stable Diffusion 3是由stability.ai开放社区在2022年2月23日推出的新版本。这个版本相比于Stable Diffusion 2在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。Stable Diffusion 3的参数在8亿——80亿之间,这可能意味着Stable Diffusion 3是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。
如何申请使用Stable Diffusion 3
Stable Diffusion 3目前支持申请使用,未来会扩大测试范围。申请地址:https://stability.ai/stablediffusion3
Stable Diffusion 3的技术内容
Stable Diffusion 3的核心架构使用了Transformer和Flow Matching(简称“FM”) 。Transformer是一种大家都很熟悉的模型架构,例如ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。Flow Matching论文地址:https://arxiv.org/abs/2210.02747
Flow Matching简单介绍
FM是一种新的训练方法,它放弃了微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。这种方法解决了传统训练方法的缺点,例如算力成本高、模型设计复杂、可解释性差等。FM主要包括以下三个步骤:
- 条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。
- 变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。
- 耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。
Stable Diffusion 3案例展示
Stable Diffusion 3的发布页面由其自身生成,包括以下几个案例:
- 史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字。
- 教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”。
- 一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着” Stable Diffusion “的字样。
- 一只变色龙,黑色背景,摄影风格。
-
一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。
- 波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。
#stability.ai
感悟:Stable Diffusion 3的发布不仅提升了图像生成的质量和效率,也推动了AI技术的发展。其使用的Flow Matching技术打破了传统的训练方法,提高了训练效率和模型的可解释性。这些新的技术和方法的出现,让我们看到了AI技术的未来发展潜力。