据Photutorial统计,Adobe Photoshop是全球认知度最高的软件之一,超过90%的创意专业人士都在使用。
因此,全新开源AI模型——中国电商巨头阿里巴巴旗下通义千问AI研究团队昨日发布的Qwen-Image Edit——能够仅通过文本输入完成大量类Photoshop编辑任务,堪称重大突破。
基于本月早些时候发布的200亿参数Qwen-Image基础模型,Qwen-Image-Edit将该系统在文本渲染方面的独特优势扩展至广泛编辑场景,从细微外观调整到整体语义转换皆可胜任。
只需上传原始图片(笔者尝试了旧金山VentureBeat年度Transform大会的个人照片),输入修改指令,Qwen-Image-Edit即可返回编辑后的新图像。
输入图像示例:
输出图像示例(指令:"让这位男士穿燕尾服"):
该模型现已在通义千问对话助手、Hugging Face、ModelScope、GitHub及阿里云API等平台开放,后者允许第三方开发者或企业将模型集成至自有应用和工作流。
笔者示例通过通义千问对话助手(Qwen团队对标OpenAI ChatGPT的产品)生成,但需注意:非付费用户每12小时仅限约8次免费生成,付费用户可享更高额度。
Qwen-Image-Edit支持中英双语输入,兼顾语义理解与视觉保真度,旨在降低专业级视觉内容创作门槛。
该模型采用Apache 2.0开源协议,企业可免费下载部署于自有硬件或虚拟云环境,相比Photoshop等商业软件有望实现显著成本节约。
正如通义千问研究员林俊阳在X平台所言:"它能精准移除一缕发丝,实现极其精细的图像修改。"
团队公告强调,Qwen-Image-Edit并非全新系统,而是基于Qwen-Image独特文本渲染与双重编码技术自然延伸的编辑工具。
双重编码技术实现风格与内容保留的编辑
Qwen-Image-Edit继承Qwen-Image核心技术,后者是今年初发布的专精图像生成与文本渲染的大模型。
Qwen-Image技术报告曾重点展示其处理段落级文本渲染、中英字符混排及多行布局等复杂任务的能力。
报告还强调其双重编码机制:图像同时输入Qwen2.5-VL模型实现语义控制,并经由变分自编码器(VAE)保留重建细节。这种设计确保编辑结果既符合指令意图,又忠实于原图风格。
Qwen-Image-Edit沿用该架构,通过双重编码实现两级调整:改变场景含义/结构的语义编辑,以及增删元素而不影响其他部分的外观编辑。
语义编辑包括创造新IP、90/180度旋转物体展现不同视角,或将输入转换为吉卜力风格等艺术形式。此类编辑通常涉及大量像素变动,但保留物体本质特征。
AI应用平台Replicate工程师Shridhar Athinarayanan的示例:使用托管版Qwen将曼哈顿照片重制为乐高积木风格。
外观编辑专注局部精准修改。演示案例包括:添加会在水面产生倒影的招牌、移除人像杂发、更改文字图像中单个字母颜色。
AnswerAI联合创始人Thomas Hill在X平台发布的对比图:拱门下穿婚纱的妻子 vs 相同拱门被涂鸦覆盖的版本。
结合Qwen卓越的中英文本渲染能力,这套编辑系统成为需要超越简单生成的创作者的灵活工具。
对语义范围与外观保真的双重控制,使同一工具既能满足创意IP开发,也能胜任专业级照片精修。
图像文本增删改
另一突出功能是双语文本编辑。Qwen-Image-Edit允许用户增删改中英文字,同时保持字体、大小和样式。
这延续了Qwen-Image在复杂中文字符等挑战性场景下的文本渲染优势。
实际应用中,可精准编辑海报、招牌、T恤或书法作品等注重文字细节的场景,如下方Replicate示例所示。
某演示案例通过链式编辑逐步修正生成书法作品的错误:用户标出错误区域→系统修正→细节微调→最终呈现正确字符。这种迭代方式展现了模型在高精度编辑任务中的应用潜力。
应用场景
通义千问团队列举了多领域应用前景:
通过融合精细化编辑与创造性转换,Qwen-Image-Edit既满足专业人士的精准控制需求,也适合非专业用户随意尝试。
性能基准
通义千问团队表示,公开基准测试表明Qwen-Image-Edit具备业界领先的图像编辑性能。
这源于Qwen-Image基础模型在通用图像生成与文本渲染任务中的优异表现。
虽然具体编辑基准数据未披露,但Qwen-Image在AI Arena等第三方评估中,经人类评审对比多个模型输出后获得高位排名。
API定价与可用性
通过阿里云Model Studio,开发者可以API形式调用Qwen-Image-Edit,定价为每图0.045美元,激活后享有180天内100张免费额度。
服务初期开放新加坡区域,速率限制为每秒5次请求,每个账户最多2个并发任务。
开发者需获取Model Studio API密钥,可通过HTTP或Python/Java版DashScope SDK调用。支持512-4,096像素分辨率、最大10MB的URL或Base64格式图像输入,输出图像存储在阿里云OSS,链接24小时有效。
未来展望
通义千问将Image-Edit视为降低视觉内容创作门槛的重要一步。通过提供精准且风格一致的编辑能力,该模型既能服务设计工作室,也能帮助普通用户优化个人项目。
这反映了AI发展的宏观趋势:从单一生成转向融合编辑、校正与优化的工具。
兼具语义灵活性与外观级精度,Qwen-Image-Edit正将大模型的生成能力与专业编辑所需的可靠性相融合。