阿里Qwen-Image-2.0:AI画图的中文能力,终于被拉满了
昨天,阿里通义千问团队发布了新一代图像生成模型Qwen-Image-2.0。
你好,我是C哥。
昨天,阿里通义千问团队发布了新一代图像生成模型Qwen-Image-2.0。
先说结论:在AI Arena的全球盲测排行榜上,这个模型的综合能力排名第二,中文能力排名第一。
排名第一的是谁?Google的Gemini图像生成模型,内部代号Nano Banana Pro,也就是现在Gemini里自带的那个画图功能。这个模型综合实力确实是目前最强的,英文场景下表现非常出色。但它有一个短板——中文渲染不够稳定,偶尔会出现乱码或者错字的情况。
Qwen-Image-2.0把这个问题彻底解决了。
它强在哪?
四个字概括:能写中文。
这听起来好像不算什么,但在AI图像生成领域,中文渲染一直是个老大难问题。英文字母就那么26个,结构简单,AI学起来容易。中文有几万个常用字,每个字的笔画结构都不一样,AI要准确渲染出来,难度完全不在一个量级。
之前的主流模型,像Midjourney和DALL-E,中文渲染基本不能用。Nano Banana Pro好很多,大部分情况下中文是对的,但还是会偶尔翻车,碰到复杂的中文排版或者生僻字就容易出问题。
Qwen-Image-2.0不一样。它能准确渲染中文对联、古诗词、甚至整篇《兰亭集序》的小楷。不只是写对了,还能自动排版,字和图的布局看起来很自然。它甚至支持不同书法字体,瘦金体、行楷、小楷都能来。