Ideogram 2.0:AI生成图像领域的革命
什么是Ideogram 2.0?
Ideogram,一个一年前发布的AI生图模型,在生成图片领域并不十分引人注目。然而昨晚,它重磅推出了2.0版本,以超强的文字渲染能力重新赢得了市场的关注。Ideogram 2.0支持生成五种不同风格的图片,包括:一般、写实、设计、3D和动漫风格。
为什么Ideogram 2.0值得关注?
写实风格可以生成类似照片的图像,设计风格可以轻松生成logo、海报等。据评测,Ideogram 2.0明显优于Midjourney和OpenAI的DALLE-3。特别值得一提的是,Ideogram称其文本渲染是业界领先水平,解决了AI生成图像领域中过去一直存在的文本渲染问题。
AI文本渲染为何难?
一直以来,AI在文本渲染方面表现不佳。即便是简单的几句话,生成的图片也常常错漏百出。为了验证这一点,作者进行了实际测试。
实际测试:Midjourney vs Flux Schnell vs Ideogram
测试内容:
输入prompt: “An illustration of a letter pad with the text ‘Hi, I’m Xi Xiaoyao. I’m a content creator and If you love AI, please follow. From – Xi Xiaoyao’. The letter pad is on a wooden table.”
翻译:信笺的插图,上面写着“hi,我是夕小瑶。我是一名内容创作者,如果你喜欢AI,请关注我。来自——夕小瑶。信笺位于木板上”。
测试结果:
- Midjourney:反馈的文字含有明显的错误,单词拼写错乱,句子不成句子。
- Flux:生成的图片与要求严重不符,仅有局部内容有所关联。
- Ideogram:单词形状与拼写几乎没有错误,图片生成也基本符合要求。
尽管Ideogram仍有一些小瑕疵,如信纸形状奇怪、缺少部分文字,但总体来说,它在文本渲染方面的表现是令人震惊的。
**实测案例:蝙蝠侠看报}
为了进一步测试,作者还生成了一个蝙蝠侠坐在屋顶上阅读报纸的场景。
输入prompt:
“A cinematic shot of Batman sitting on a rooftop. He is reading a newspaper with the headline ‘The Joker Terrorizes Zavalia’. The background contains a city skyline.”
翻译:蝙蝠侠坐在屋顶上的电影镜头。他正在阅读一份标题为“小丑恐吓萨瓦利亚”的报纸。背景包含城市天际线。
测试结果:
- Ideogram:生成的图片符合要求,报纸上的文字内容正确,甚至含有小丑的头像。但报纸形状和蝙蝠侠的脸有些不自然。
- Midjourney:蝙蝠侠形象较为写实,但文本融入效果欠佳。
- Flux:文本质量极差,甚至出现了三条腿的人这种重大错误。
设计风格的测试
输入prompt:
“A modern website design with a bubble tea theme. The background is a soft teal color. There’s a peach bubble tea with tapioca pearls in a clear cup. Next to the cup is a peach laptop with a blog post open. There’s a comfortable teal chair with a curved back. The text ‘Relax, create, and work from home’ is written in a modern font.”
翻译:一个以珍珠奶茶为主题的现代网站设计。背景是柔和的青色。透明杯子里有一杯桃子珍珠奶茶,里面有木薯珍珠。杯子旁边是一台桃色笔记本电脑,上面打开着一篇博客文章。有一张舒适的青色椅子,带有弧形靠背。以现代字体书写“在家放松、创造和工作”文字。
测试结果:
- Ideogram依然表现优异,文本与设计元素呈现得十分到位。
- Midjourney和Flux的文本质量则平平