潜空间
潜空间是一个概念,形容了一种理论上的、存在于现实世界之外的、存在于人的心灵和意识中的空间。它是指一种超越传统三维空间的抽象空间,可以被用来描述人类智慧、创造力和意识的内在世界。
背景
潜空间的概念最早由瑞士心理学家卡尔·荣格(Carl Jung)提出,他认为人的意识不仅限于现实世界中的感官经验,还涉及到深埋于潜意识中的一系列符号、象征和情感。荣格相信,通过探索潜在的内在世界,人们可以发现隐藏在自己内心深处的真实自我,并实现个体的完整性和自我实现。
特征
潜空间没有明确的边界或形状,它是一个抽象的、非物质的领域。它通过象征、隐喻和梦境来表达,允许人们超越日常现实的限制,进入更深层次的体验。潜空间是一个丰富多样的领域,其中包含了个体的潜能、创造力和内在的智慧。
AI绘画中的潜空间
- 潜空间(Latent Space)是一个扩散过程中的”低维空间”。潜在空间简单的说是对压缩数据的表示。所谓压缩指的是用比原始表示更小的数位来编码信息的过程。比如我们用一个颜色通道(黑白灰)来表示原来由RGB三原色构成的图片,此时每个像素点的颜色向量由3维变成了1维度。维度降低会丢失一部分信息,然而在某些情况下,降维不是件坏事。通过降维我们可以过滤掉一些不太重要的信息你,只保留最重要的信息。
-
假设我们像通过全连接的卷积神经网络训练一个图像分类模型。当我们说模型在学习时,我们的意思是它在学习神经网络每一层的特定属性,比如边缘、角度、形状等……每当模型使用数据(已经存在的图像)学习时,都会将图像的尺寸先减小再恢复到原始尺寸。最后,模型使用解码器从压缩数据中重建图像,同时学习之前的所有相关信息。因此,空间变小,以便提取和保留最重要的属性。这就是潜在空间适用于扩散模型的原因。
-
Stable Diffusion和之前的Diffusion:扩散化模型相比,重点就在于将模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到潜空间内进行压缩,然后再进行繁重的模型训练和图像生成计算。基于潜空间的Diffusion模型与像素空间Diffusion模型相比,大大降低了内存和计算要求。
-
通常Stable Diffusion所使用的潜空间编码缩减因子为8,那图像的长和宽都会被缩减8倍,一个512×512的图像在潜空间中直接变为64×64,节省了8×8=64倍的内存。因此,潜空间的大小与图像的真实尺寸之间,会存在一个“8倍”的换算比率。