Ideogram 2.0:优于Midjourney和DALLE-3的AI文本渲染革新

AI前沿2个月前更新 wanglu852
3,831 0 0
广告也精彩

Ideogram 2.0:AI生成图像领域的革命

什么是Ideogram 2.0?

Ideogram,一个一年前发布的AI生图模型,在生成图片领域并不十分引人注目。然而昨晚,它重磅推出了2.0版本,以超强的文字渲染能力重新赢得了市场的关注。Ideogram 2.0支持生成五种不同风格的图片,包括:一般、写实、设计、3D和动漫风格。

为什么Ideogram 2.0值得关注?

写实风格可以生成类似照片的图像,设计风格可以轻松生成logo、海报等。据评测,Ideogram 2.0明显优于Midjourney和OpenAI的DALLE-3。特别值得一提的是,Ideogram称其文本渲染是业界领先水平,解决了AI生成图像领域中过去一直存在的文本渲染问题。

AI文本渲染为何难?

一直以来,AI在文本渲染方面表现不佳。即便是简单的几句话,生成的图片也常常错漏百出。为了验证这一点,作者进行了实际测试。

实际测试:Midjourney vs Flux Schnell vs Ideogram

测试内容:

输入prompt: “An illustration of a letter pad with the text ‘Hi, I’m Xi Xiaoyao. I’m a content creator and If you love AI, please follow. From – Xi Xiaoyao’. The letter pad is on a wooden table.”

翻译:信笺的插图,上面写着“hi,我是夕小瑶。我是一名内容创作者,如果你喜欢AI,请关注我。来自——夕小瑶。信笺位于木板上”。

测试结果:

  • Midjourney:反馈的文字含有明显的错误,单词拼写错乱,句子不成句子。
  • Flux:生成的图片与要求严重不符,仅有局部内容有所关联。
  • Ideogram:单词形状与拼写几乎没有错误,图片生成也基本符合要求。

尽管Ideogram仍有一些小瑕疵,如信纸形状奇怪、缺少部分文字,但总体来说,它在文本渲染方面的表现是令人震惊的。

**实测案例:蝙蝠侠看报}

为了进一步测试,作者还生成了一个蝙蝠侠坐在屋顶上阅读报纸的场景。

输入prompt:

“A cinematic shot of Batman sitting on a rooftop. He is reading a newspaper with the headline ‘The Joker Terrorizes Zavalia’. The background contains a city skyline.”

翻译:蝙蝠侠坐在屋顶上的电影镜头。他正在阅读一份标题为“小丑恐吓萨瓦利亚”的报纸。背景包含城市天际线。

测试结果:

  • Ideogram:生成的图片符合要求,报纸上的文字内容正确,甚至含有小丑的头像。但报纸形状和蝙蝠侠的脸有些不自然。
  • Midjourney:蝙蝠侠形象较为写实,但文本融入效果欠佳。
  • Flux:文本质量极差,甚至出现了三条腿的人这种重大错误。

设计风格的测试

输入prompt:

“A modern website design with a bubble tea theme. The background is a soft teal color. There’s a peach bubble tea with tapioca pearls in a clear cup. Next to the cup is a peach laptop with a blog post open. There’s a comfortable teal chair with a curved back. The text ‘Relax, create, and work from home’ is written in a modern font.”

翻译:一个以珍珠奶茶为主题的现代网站设计。背景是柔和的青色。透明杯子里有一杯桃子珍珠奶茶,里面有木薯珍珠。杯子旁边是一台桃色笔记本电脑,上面打开着一篇博客文章。有一张舒适的青色椅子,带有弧形靠背。以现代字体书写“在家放松、创造和工作”文字。

测试结果:

  • Ideogram依然表现优异,文本与设计元素呈现得十分到位。
  • MidjourneyFlux的文本质量则平平
© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!