TurboEdit: 基于文本的即时图像编辑
作者:吴宗泽, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman
机构:Adobe Research
会议:将发表于ECCV 2024
摘要
AI即时图像编辑神器TurboEdit 一句话瞬间变发色、减龄、换装!
TurboEdit是一款基于文本的即时图像编辑工具,让用户通过简单的文本描述快速对图像进行编辑。编辑速度极快,支持即时反馈和交互式编辑,让用户实时看到编辑效果。无论是专业设计师还是普通用户,都能通过TurboEdit轻松实现创意构想。
我们解决了在少步扩散模型背景下精确图像反演和解耦图像编辑的挑战。我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和上一步重建的图像为条件,允许对下一步重建进行校正,使其更接近输入图像。我们展示了通过对(自动生成的)详细文本提示进行条件化,能够在少步扩散模型中轻松实现解耦控制。为了操纵反演图像,我们冻结噪声图并在文本提示中修改一个属性(手动或通过基于LLM的指令编辑),从而生成一个与输入图像相似但只有一个属性更改的新图像。它还可以进一步控制编辑强度并接受指令文本提示。我们的方法在反演过程中仅需要8次功能评估(一次性成本),每次编辑需要4次功能评估,不仅快速,还显著优于最先进的多步扩散编辑技术。
方法
给定一个输入真实图像 x0
,我们利用 LLaVA 生成一个详细的描述 c
。用户可以修改 c
以创建一个新的文本提示 c ′
。反演过程开始时,将 x0
、c
、当前时间步 t
和先前重建的图像 x0,t+1
(初始化为零矩阵)输入到反演网络中。这个网络预测噪声 ϵt
,然后将其输入到冻结的 SDXL-Turbo 模型中生成新的重建图像 x0,t
。给定最终反演的噪声 ϵt
,以及 c
,我们可以使用 SDXL-Turbo 创建一个反演轨迹并重建 x0,0
,这与 x0
非常相似。使用相同的噪声 ϵt
和略有不同的文本提示 c ′
,从 t = T
到较小的 t
,编辑轨迹将与反演轨迹非常相似,生成的图像将与输入图像非常相似,只在 c'
中指定的属性上有所不同。
常见问题解答(Q&A)
Q: TurboEdit 的主要创新是什么?
A: TurboEdit 的主要创新在于其基于编码器的迭代反演技术和少步扩散模型。通过对详细文本提示的条件化,可以轻松实现解耦控制。
Q: 如何使用 TurboEdit 进行图像编辑?
A: 使用 TurboEdit 进行图像编辑的步骤如下:
- 提供输入图像
x0
。 - 使用 LLaVA 生成详细描述
c
。 - 修改
c
以创建新的文本提示c ′
。 - 将
x0
、c
、当前时间步t
和先前重建的图像x0,t+1
输入到反演网络中。 - 反演网络预测噪声
ϵt
,并通过 SDXL-Turbo 模型生成新的重建图像x0,t
。 - 使用相同的噪声
ϵt
和略有不同的文本提示c ′
进行编辑,生成与输入图像相似但在指定属性上有所不同的新图像。
Q: TurboEdit 与现有图像编辑技术相比有哪些优势?
A: TurboEdit 的优势包括:
- **速度快**:反演过程仅需要8次功能评估,每次编辑需要4次功能评估。
- **精度高**:生成的图像与输入图像非常相似,只在指定属性上有所不同。
- **解耦控制**:通过对详细文本提示的条件化,轻松实现解耦控制。
Q: TurboEdit 的应用场景有哪些?
A: TurboEdit 适用于各种需要快速、高精度图像编辑的场景,如广告设计、电影特效、社交媒体内容创建等。
相关链接
- Few step diffusion model SDXL-Turbo
- StyleGAN based iterative image inversion method ReStyle
- Concurrent few step diffusion image editing works Renoise and another method also calls TurboEdit
引用
@article{wu2024turboedit, author = {Wu, Zongze and Kolkin, Nicholas and Brandt, Jonathan and Zhang, Richard and Shechtman, Eli}, title = {TurboEdit: Instant text-based image editing}, journal = {ECCV}, year = {2024}, }
总结
TurboEdit 提供了一种基于编码器的迭代反演技术和少步扩散模型,以实现快速且高精度的图像编辑。其主要创新在于通过对详细文本提示的条件化,轻松实现解耦控制。TurboEdit 在广告设计、电影特效和社交媒体内容创建等领域具有广泛的应用前景。
目标受众主要包括需要快速进行高精度图像编辑的专业人士,如设计师、特效师和内容创作者。
标签
#快速高精度编辑