アリババの MagicQuill 画像編集:AI時代のマリアンの筆

周二我们介绍了一个字节的AI图片编辑工具:SeedEdit,今天来看看阿里的 MagicQuill,一款“智能交互式图像编辑系统”。

先来个我试的效果:https://huggingface.co/spaces/AI4Editing/MagicQuill

MagicQuill:图片编辑新体验

MagicQuill 是一款集智能化与交互性于一身的图像编辑系统,旨在实现精准的图像编辑,无论图片多么复杂都能轻松应对!

系统亮点:

  • 😎 友好的用户界面:简单直观,轻松上手。
  • 🤖 AI驱动的智能建议:实时预测用户意图,省去输入繁琐提示的麻烦。
  • 🎨 精确的局部编辑:实现元素插入、对象擦除、颜色调整等精细操作。

MagicQuill 试用说明

I. 三种魔法画笔

1. Add Brush(添加画笔)

  • 使用添加画笔,通过简单几笔即可增添细节或元素,由智能提示引导你的创作。
  • 动图描述
    • “几笔勾勒出一只栩栩如生的小鹿。”

    • “给美丽的女士戴上项链。”


2. Subtract Brush(减法画笔)

  • 使用减法画笔可以移除多余细节,或者根据提示重新绘制区域。如果有不满意的地方,只需轻松擦除即可!
  • 动图描述
    • “一只拥有双尾鳍的海豚?让我们快速修正一下!”

    • “帮骷髅先生摘掉帽子,让他凉快点吧。”

3. Add & Subtract Brush(组合画笔)

  • 结合添加与减法画笔,创造出惊艳的组合效果。
  • 动图描述
    • “给蒙娜丽莎添加一只宠物猫~”

    • “给这个帅哥换上一条新领带!”

4. Color Brush(颜色画笔)

  • 颜色画笔可精准上色,让你的画笔与颜色完美匹配。
  • 动图描述
    • “精准的颜色高亮 - 只涂你想涂的地方。”

    • “蓝色的花朵是不是比粉色的更梦幻?”

II. Draw and Guess(画图猜图)

完成绘图后,MagicQuill会自动猜测你的创作意图,并生成相应提示。如果猜错了,用户可以随时告诉它正确的内容。

  • 动图描述
    • “啊哦!我不是想画藤蔓,我想画小路!”

支持模型

  • SD1.5/realisticVisionV60B1_v51VAE.safetensors:生成真实风格图像,推荐日常使用。
  • SD1.5/DreamShaper.safetensors:生成奇幻风格图像。
  • SD1.5/majicMIX_realistic:适合生成肖像。
  • SD1.5/MeinaMix.safetensors:适合生成二次元风格图像。
  • SD1.5/ghostmix_v20Bakedvae.safetensors:另一个二次元风格生成模型。

技术

MagicQuill 的核心技术之一是多模态大语言模型,它可以实时监测用户的操作,预测用户的意图,无需用户输入任何文字提示,大幅提升使用体验的流畅性。编辑请求的实现依赖于强大的扩散模型(Diffusion Prior),并结合了精心设计的双分支插件模块,以保证编辑操作的精准与可控性。

系统框架概述

系统框架由三个集成组件组成:

  1. 编辑处理器:采用双分支架构,支持对图像修复(inpainting)的可控操作。
  2. 绘画助手:提供实时意图预测功能,帮助用户快速实现创作意图。
  3. 创意采集器:提供多功能画笔工具,支持多样化的创作需求。

数据处理流程

输入图像首先经过卷积神经网络(CNN)进行边缘提取,并通过降采样进行颜色简化。随后,根据画笔信号生成三种编辑条件:

  1. 编辑掩码
  2. 边缘条件
  3. 颜色条件

编辑处理器概述

MagicQuill提出的编辑处理器架构基于潜在扩散模型的 UNet 进行扩展,包含两个专用分支:

  1. 修复分支(Inpainting Branch):提供基于内容感知的逐像素修复指导。
  2. 控制分支(Control Branch):提供结构化指导,确保精确的笔触图像编辑。

数据集构建过程说明

  1. (a) 原始图像:选取自 DCI 数据集的原始图像。
  2. (b) 边缘图:从原始图像中提取的边缘图。
  3. (c) 选择掩码:选取边缘密度最高的区域(用紫色标记)。
  4. (d) 修复结果:使用 BrushNet 对增强后的掩码区域进行修复。
  5. (e) 最终结果:在修复结果上叠加边缘图。

对比

可视化结果对比

  • 前两列:分别展示了用于编辑的边缘条件和颜色条件。
  • 最后一列:展示了模型试图重现的真实图像(Ground Truth)。
  1. SmartEdit

  • 使用自然语言作为引导,但在形状和颜色的控制上缺乏精度,并且常影响非目标区域。
  • SketchEdit

    • 基于 GAN 的方法,在开放领域图像生成中表现不足,相较于具有扩散生成先验的模型效果较弱。
  • BrushNet

    • 在无缝图像修复方面表现出色,但即便结合 ControlNet 增强,其在边缘与颜色的对齐上仍存在困难。
  • 我们的编辑处理器

    • 完全遵循边缘和颜色条件,能够实现高保真度的条件图像编辑,显著优于上述方法。

    定量结果