周二我们介绍了一个字节的AI图片编辑工具:SeedEdit,今天来看看阿里的 MagicQuill,一款“智能交互式图像编辑系统”。
先来个我试的效果:https://huggingface.co/spaces/AI4Editing/MagicQuill
MagicQuill:图片编辑新体验
MagicQuill 是一款集智能化与交互性于一身的图像编辑系统,旨在实现精准的图像编辑,无论图片多么复杂都能轻松应对!
系统亮点:
😎 友好的用户界面:简单直观,轻松上手。 🤖 AI驱动的智能建议:实时预测用户意图,省去输入繁琐提示的麻烦。 🎨 精确的局部编辑:实现元素插入、对象擦除、颜色调整等精细操作。
MagicQuill 试用说明
I. 三种魔法画笔
1. Add Brush(添加画笔)
使用添加画笔,通过简单几笔即可增添细节或元素,由智能提示引导你的创作。 动图描述: “几笔勾勒出一只栩栩如生的小鹿。” “给美丽的女士戴上项链。”
2. Subtract Brush(减法画笔)
使用减法画笔可以移除多余细节,或者根据提示重新绘制区域。如果有不满意的地方,只需轻松擦除即可! 动图描述: “一只拥有双尾鳍的海豚?让我们快速修正一下!” “帮骷髅先生摘掉帽子,让他凉快点吧。”
3. Add & Subtract Brush(组合画笔)
结合添加与减法画笔,创造出惊艳的组合效果。 动图描述: “给蒙娜丽莎添加一只宠物猫~” “给这个帅哥换上一条新领带!”
4. Color Brush(颜色画笔)
颜色画笔可精准上色,让你的画笔与颜色完美匹配。 动图描述: “精准的颜色高亮 - 只涂你想涂的地方。” “蓝色的花朵是不是比粉色的更梦幻?”
II. Draw and Guess(画图猜图)
完成绘图后,MagicQuill会自动猜测你的创作意图,并生成相应提示。如果猜错了,用户可以随时告诉它正确的内容。
动图描述: “啊哦!我不是想画藤蔓,我想画小路!”
支持模型
SD1.5/realisticVisionV60B1_v51VAE.safetensors:生成真实风格图像,推荐日常使用。 SD1.5/DreamShaper.safetensors:生成奇幻风格图像。 SD1.5/majicMIX_realistic:适合生成肖像。 SD1.5/MeinaMix.safetensors:适合生成二次元风格图像。 SD1.5/ghostmix_v20Bakedvae.safetensors:另一个二次元风格生成模型。
技术
MagicQuill 的核心技术之一是多模态大语言模型,它可以实时监测用户的操作,预测用户的意图,无需用户输入任何文字提示,大幅提升使用体验的流畅性。编辑请求的实现依赖于强大的扩散模型(Diffusion Prior),并结合了精心设计的双分支插件模块,以保证编辑操作的精准与可控性。
系统框架概述
系统框架由三个集成组件组成:
编辑处理器:采用双分支架构,支持对图像修复(inpainting)的可控操作。 绘画助手:提供实时意图预测功能,帮助用户快速实现创作意图。 创意采集器:提供多功能画笔工具,支持多样化的创作需求。
数据处理流程
输入图像首先经过卷积神经网络(CNN)进行边缘提取,并通过降采样进行颜色简化。随后,根据画笔信号生成三种编辑条件:
编辑掩码 边缘条件 颜色条件
编辑处理器概述
MagicQuill提出的编辑处理器架构基于潜在扩散模型的 UNet 进行扩展,包含两个专用分支:
修复分支(Inpainting Branch):提供基于内容感知的逐像素修复指导。 控制分支(Control Branch):提供结构化指导,确保精确的笔触图像编辑。
数据集构建过程说明
(a) 原始图像:选取自 DCI 数据集的原始图像。 (b) 边缘图:从原始图像中提取的边缘图。 (c) 选择掩码:选取边缘密度最高的区域(用紫色标记)。 (d) 修复结果:使用 BrushNet 对增强后的掩码区域进行修复。 (e) 最终结果:在修复结果上叠加边缘图。
对比
可视化结果对比
前两列:分别展示了用于编辑的边缘条件和颜色条件。 最后一列:展示了模型试图重现的真实图像(Ground Truth)。
SmartEdit
使用自然语言作为引导,但在形状和颜色的控制上缺乏精度,并且常影响非目标区域。
SketchEdit
基于 GAN 的方法,在开放领域图像生成中表现不足,相较于具有扩散生成先验的模型效果较弱。
BrushNet
在无缝图像修复方面表现出色,但即便结合 ControlNet 增强,其在边缘与颜色的对齐上仍存在困难。
我们的编辑处理器
完全遵循边缘和颜色条件,能够实现高保真度的条件图像编辑,显著优于上述方法。