Z-Image崛起:参数少效果好,Flux2图像生成时代或终结?

AI前沿14小时前发布 yizz
2,111 0 0

Z-Image:新一代开源图像生成模型的崛起与Flux2的没落?

为什么说Flux2的时代可能已经过去?

Flux2 昨天还在图像生成领域占据一席之地,但今天 Z-Image 的出现似乎已经预示着 Flux2 的没落。人们细数了 Flux2 的“十宗罪”,主要包括以下几点:

Flux2的罪状

  1. 本地显存占用过大: 大部分用户无法使用。虽然更新了16G显存可用的工作流,但效果仍然无法与 Flux2 Pro 相比,而 Flux2 Pro 速度慢且难以获取。只有少数拥有 40905090 显卡的用户才能勉强使用。
  2. 效果不佳:Flux2 Pro 相比,效果差距明显。
  3. 中文支持差: 不如现有的 Qwenimage 生态。
  4. 训练Lora成本太高: 训练 Lora 需要6小时,这样的成本难以发展生态。
  5. 内存占用过大: 全量版本需要 64G 内存,devFP8 版本需要 33G 内存。

这些问题表明,Flux2 可能并没有真正面向开源用户。 #开源

Z-Image的优势:参数少、效果好、支持中文

Z-Image 的出现给图像生成领域带来了一股新风。它仅具有 6B 参数,相比 Flux232B,表现力却惊人。Z-Image 在兼顾中文能力的同时,还可以轻松适应 16G VRAM 的消费级设备。它擅长生成逼真的图像、双语文本渲染(英语和中文),并且拥有强大的指令遵循能力。

Z-Image 的优势可以总结为以下几点:

  • 参数少:6B 参数,降低了硬件门槛。
  • 效果好: 生成逼真的图像,媲美甚至超越 Flux2
  • 支持中文: 更好地服务中文用户。
  • 适应性强: 可以在 16G VRAM 的消费级设备上运行。

#Z-Image #开源模型

Z-Image的核心技术:提示增强与推理、创意图像编辑

Z-Image 具有两项核心技术:

提示增强与推理

提示增强器 赋予模型推理能力,使其能够超越表面描述,深入挖掘世界知识。这意味着 Z-Image 可以更好地理解用户的意图,从而生成更符合用户需求的图像。

创意图像编辑

Z-Image-Edit 对双语编辑指令有很强的理解力,能够实现富有想象力和灵活性的图像变换。例如,用户可以使用中文或英文指令来改变图像的风格、内容等。

#AI技术

Z-Image的模型架构:可扩展的单流DiT(S3-DiT)

Z-Image 采用了可扩展的单流 DiTS3-DiT)架构。在这种设置中,文本、视觉语义标记和图像 VAE 标记在序列级别上被连接起来,作为统一的输入流,与双流方法相比,最大限度地提高了参数效率。这意味着 Z-Image 可以在更少的参数下实现更好的效果。

#S3-DiT

Z-Image的性能表现:AI Arena上的卓越成绩

AI Arena 上,Z-Image-Turbo 展示了与其他领先模型高度竞争的性能,同时在开源模型中取得了最先进的结果。这进一步证明了 Z-Image 的实力。

Arena #开源模型

Z-Image的应用案例:提示词合集

以下是一些 Z-Image 的提示词示例:

  • 一张中景手机自拍照片拍摄了一位留着长黑发的年轻东亚女子在灯光明亮的电梯内对着镜子自拍。她穿着一件带有白色花朵图案的黑色露肩短上衣和深色牛仔裤。她的头微微倾斜,嘴唇嘟起做亲吻状,非常可爱俏皮。她右手拿着一部深灰色智能手机,遮住了部分脸,后置摄像头镜头对着镜子。
  • 细腻且复古的富士相机拍立得,拍立得尺寸,照片充满了独特的胶片颗粒质感,画面色彩饱和度适中,带有拍立得特有的色彩倾向。白色的拍立得相纸边框。甜妹拥有黑色复杂发型的长头发,身上的古风衣服巨华丽,布满白色花纹,全身以白色和浅蓝色为主色调。衣服上装饰繁多,不仅有精美的流苏,还有娇艳的花朵,且全身搭配着各种小物,头戴精致花环,由白、浅蓝、浅粉三色花构成,上半身近景,俏皮。
  • This photograph captures a close-up of an East Asian woman with fair skin and long, wavy black hair that partially covers her face. She has delicate features, including a slender nose and full red lips. Her eyes are closed, giving her a serene and contemplative expression. She is wearing a semi-sheer, patterned blouse with earthy tones of green, orange, and gold, and a small gold necklace with a simple pendant. The background features a pond with large, green lily pads and two pink lotus flowers in bloom, one slightly out of focus in the foreground and the other in the background. The sunlight casts a warm, golden glow on her face and hair, creating soft shadows that enhance the textures of her hair and blouse. The overall composition evokes a sense of tranquility and natural beauty, with the subject harmoniously blending with the serene, natural environment. The image is rich in color and texture, with the softness of the lotus flowers contrasting against the smoothness of the woman’s skin and the delicate pattern of her blouse.
  • This photograph captures an Asian woman in traditional Japanese attire, bathed in soft, natural sunlight. She has fair skin and delicate features, with her black hair styled in an elegant updo adorned with an orange flower and gold hairpins. Her eyes are gently closed, and she has a small red dot on her forehead, typical of Japanese geisha makeup. She wears a red kimono with intricate orange and white circular patterns, over a white, semi-transparent shawl embellished with floral embroidery in orange, blue, and green. Her left hand is delicately touching her chin, and her right arm rests gracefully by her side. The background is softly blurred, featuring muted brown and beige tones, suggesting an indoor setting with traditional Japanese decor. The lighting creates a warm, golden glow on her face and clothing, highlighting the textures and patterns of her attire. The overall composition is serene and elegant, capturing the timeless beauty and cultural richness of traditional Japanese fashion.
  • 极具氛围感的暗调人像,一位优雅的中国美女在黑暗的房间里。一束强光通过遮光板,在她的脸上投射出一个清晰的闪电形状的光影,正好照亮一只眼睛。高对比度,明暗交界清晰,神秘感,莱卡相机色调。
  • 一张方形构图的特写照片,主体是一片巨大的、鲜绿色的植物叶片,并叠加了文字,使其具有海报或杂志封面的外观。主要拍摄对象是一片厚实、有蜡质感的叶子,从左下角到右上角呈对角线弯曲穿过画面。其表面反光性很强,捕捉到一个明亮的直射光源,形成了一道突出的高光,亮面下显露出平行的精细叶脉。背景由其他深绿色的叶子组成,这些叶子轻微失焦,营造出浅景深效果,突出了前景的主叶片。整体风格是写实摄影,明亮的叶片与黑暗的阴影背景之间形成高对比度。图像上有多处渲染文字。左上角是白色的衬线字体文字”PIXEL-PEEPERS GUILD Presents”。右上角同样是白色衬线字体的文字”[Instant Noodle] 泡面调料包”。左侧垂直排列着标题”Render Distance: Max”,为白色衬线字体。左下角是五个硕大的白色宋体汉字”显卡在…燃烧”。右下角是较小的白色衬线字体文字”Leica Glow™ Unobtanium X-1″,其正上方是用白色宋体字书写的名字”蔡几”。识别出的核心实体包括品牌像素偷窥者协会、其产品线泡面调料包、相机型号买不到™ X-1以及摄影师名字造相。
  • 在一家咖啡馆,一块菜单板上用大号棕色字母标有“Espresso Special”,一块黑板标志用粗体白色写着“FreeWiFi”,一张纸巾包装上用小号绿色草书写着“Enjoy Coffee”,一张收据上用普通黑色显示“Total:4.50”,一个咖啡杯标签则用斜体米色写着“Latte Art”。

#AI艺术

Lora推荐

(根据用户提供的最后一张Lora图片进行主观评价)

我觉得: 从提供的Lora图片来看,这张Lora在色彩运用和细节处理上都相当出色,展现了作者对风格的深刻理解和精湛技艺。不过,AI生成的内容始终缺乏一些灵魂,还需不断探索和完善。 #艺术创作

© 版权声明

相关文章