031_SSS_Imagic Text-Based Real Image Editing with Diffusion Models_imagic: text-based real image edi_link之家

添加链接

注册登录

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

独立的李子 · jQuery 效果 – 停止动画 | 菜鸟教程· 6 月前 ·

被表白的书签 · adb 连接提示Connection ...· 7 月前 ·

任性的消炎药 · 解决C#调用COM组件异常来自 ...· 1 年前 ·

憨厚的毛衣 · Linux下的计划任务-crontab - ...· 1 年前 ·

烦恼的上铺 · Google Colab ...· 1 年前 ·

Imagic: Text-Based Real Image Editing with Diffusion Models

1. Introduction

本文提出了一种新的基于Diffusion的方法称作Imagic，可以实现复杂的基于文本的图像编辑。与之前的方法不同，本文的方法只需要一张输入图像和一个目标文本，并且可以直接用于真实的图像而不需要额外的输入比如mask。

传统方法的缺点

受限于特定的编辑方式比如添加一个物体，风格迁移。
只能处理特定类型的图片或者生成的图片。
需要额外的输入，比如mask，相同物体的多张图片，或者对于原图的文本描述

本文的主要贡献

提出了Imagic，第一个基于文本的图像语义编辑方法，可以对于单张输入图像实现复杂的非刚性的编辑，同时保持其总体的结构和组成。
本文展示了两个文本嵌入序列之间具有语义意义的线性插值，揭示了文本到图像扩散模型的强大组合能力。
本文提出了TEdBench，一种新的具有挑战性的复杂图像编辑benchmark，可以同于比较不同的基于文本的图像编辑方法。

2. Methodology

类似于基于GAN的图像编辑方法，本文首先找到有意义的表示，把这些表示提供给模型可以生成与输入图像相似的图像。然后微调生成模型以更好地重建输入图像，最后操纵隐式表示以获得编辑结果。

具体分为三个步骤：
对于一个预训练好的文本-图像Diffusion模型

第一步，优化文本embedding以找到与目标文本embedding相近的与给定图像最匹配的文本嵌入。
第二步，微调Diffusion模型使其更匹配输入的图像
第三步，在优化后的文本embedding和目标文本embedding之间进行线性插值，从而找到既能与原图像有较高的保真度，又与目标文本描述一致的图像。

Text embedding optimization

由于本文的方法没有原图像对应的文本，而只有目标文本，因此需要先得到原图像的文本embedding。具体的做法是，在第一阶段，首先通过text encoder得到目标文本的target embedding

3. Experiments

Implementation details

具体参数不罗列。本文的实验第一部分训练了100step，第二步训练了1500步，同样对于辅助模型也训练了1500步。

TEdBench

本文收集了100对输入图像和目标文本，作为benchmark

Albation Study

对于线性插值的参数

推荐文章

独立的李子 · jQuery 效果 – 停止动画 | 菜鸟教程

6 月前

被表白的书签 · adb 连接提示Connection refused（拒绝连接）的解决方法-CSDN博客

7 月前

任性的消炎药 · 解决C#调用COM组件异常来自 HRESULT:0x80010105 (RPC_E_SERVERFAULT)的错误 - zhaotianff - 博客园

1 年前

憨厚的毛衣 · Linux下的计划任务-crontab - 腾讯云开发者社区-腾讯云

1 年前

烦恼的上铺 · Google Colab 中运行自己的py文件_colab运行python文件_weixin_43543210的博客-CSDN博客

1 年前

今天看啥 · Py中国 · codingpro · 藏经阁 · 小百科 · link之家 · 卧龙AI搜索

删除内容请联系邮箱 2879853325@qq.com

link之家 - 链接快照平台

© 2024 ~ 沪ICP备11025650号