添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

Imagic: Text-Based Real Image Editing with Diffusion Models

1. Introduction

本文提出了一种新的基于Diffusion的方法称作Imagic,可以实现复杂的基于文本的图像编辑。与之前的方法不同,本文的方法只需要一张输入图像和一个目标文本,并且可以直接用于真实的图像而不需要额外的输入比如mask。

传统方法的缺点

  1. 受限于特定的编辑方式比如添加一个物体,风格迁移。
  2. 只能处理特定类型的图片或者生成的图片。
  3. 需要额外的输入,比如mask,相同物体的多张图片,或者对于原图的文本描述

本文的主要贡献

  1. 提出了Imagic,第一个基于文本的图像语义编辑方法,可以对于单张输入图像实现复杂的非刚性的编辑,同时保持其总体的结构和组成。
  2. 本文展示了两个文本嵌入序列之间具有语义意义的线性插值,揭示了文本到图像扩散模型的强大组合能力。
  3. 本文提出了TEdBench,一种新的具有挑战性的复杂图像编辑benchmark,可以同于比较不同的基于文本的图像编辑方法。

2. Methodology

类似于基于GAN的图像编辑方法,本文首先找到有意义的表示,把这些表示提供给模型可以生成与输入图像相似的图像。然后微调生成模型以更好地重建输入图像,最后操纵隐式表示以获得编辑结果。

具体分为三个步骤:
对于一个预训练好的文本-图像Diffusion模型

  1. 第一步,优化文本embedding以找到与目标文本embedding相近的与给定图像最匹配的文本嵌入。
  2. 第二步,微调Diffusion模型使其更匹配输入的图像
  3. 第三步,在优化后的文本embedding和目标文本embedding之间进行线性插值,从而找到既能与原图像有较高的保真度,又与目标文本描述一致的图像。

Text embedding optimization

由于本文的方法没有原图像对应的文本,而只有目标文本,因此需要先得到原图像的文本embedding。具体的做法是, 在第一阶段,首先通过text encoder得到目标文本的target embedding

3. Experiments

Implementation details

具体参数不罗列。本文的实验第一部分训练了100step,第二步训练了1500步,同样对于辅助模型也训练了1500步。

TEdBench

本文收集了100对输入图像和目标文本,作为benchmark

Albation Study

对于线性插值的参数 点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【 计算机视觉 】微信技术交流群转载:机器之心甲方:「我想让这只小狗坐下。」AI:安排!动动嘴皮子就能把图改好是甲方和乙方的共同愿望,但通常只有乙方才知道其中的酸楚。如今,AI 却向这个高难度问题发起了挑战。在一篇 10 月 17 日上传到 arXiv 的论文中,来自谷歌研究院、以色列理工学院、以色列魏茨曼科学研究所... 当任务是复杂的非刚性编辑时,如让狗坐,我们的方法明显优于以前的技术。相比之下,微调从输入图像中施加的细节不仅仅是优化的嵌入,允许我们的方案在η的中间值中保留这些细节,从而实现语义上有意义的线性插值。与其他编辑方法相反,我们的方法可以产生复杂的非刚性编辑,可以根据要求改变图像内对象的姿势,几何形状和/或组成,以及更简单的编辑,如风格或颜色。我们使用两种不同的最先进的文本到图像生成扩散模型来证明我们的框架是通用的,可以与不同的生成模型相结合: Image n[53]和Stable diff us ion [50]。 文本条件图像编辑最近引起了相当人的兴趣。然而目前人多数方法仅限于以下之一:特定的编辑类型(例如,对象叠加、样式转换)、合成生成的图像或需要一个共同对象的多个输入图像。在这篇论文中,我们首次证明了对单个真实图像应用复杂(例如,非刚性)基于文本的语义编辑的能力。例如,我们可以改变图像中一个或多个对象的姿势和构图,同时保其原始特征。我们的方法可以让一只站立的狗坐下,让一只乌展开翅膀等等每个都在其单个高分辨率用户提供的自然图像中。与之前的工作相反,我们提出的方法只需要一个输入图像和一个日标文本(所需的编辑)。 以文本为条件的图像编辑最近引起了相当大的兴趣。然而,目前大多数方法都局限于以下几种情况之一:特定的编辑类型(如对象叠加、样式转移)、合成生成的图像,或者需要输入多个共同对象的图像。在本文中,我们首次展示了对单张真实图像进行复杂(如非刚性)文本语义编辑的能力。例如,我们可以改变图像中一个或多个物体的姿态和构成,同时保留其原始特征。我们的方法可以让一只站立的狗坐下,让一只鸟张开翅膀,等等。- 每个物体都在用户提供的单张高分辨率自然图像中。 这篇文章是一篇基于扩散模型( Diff us ion Model)的图片编辑( image edit ing )方法综述。作者从多个方面对当前的方法进行分类和分析,包括学习策略、用户输入、和适用的任务等。为了进一步评估文本引导的图片编辑算法,作者提出了一个新的基准, Edit Eval,采用了一个创新的指标:LMM Score。最后,作者分析了当前方法的局限和未来可能的研究方向。 标题:KOSMOS-1:语言不是你所需要的全部:将感知与语言模型相结合作者:Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham S ing hal, Shum ing Ma, Tengchao Lv文章链接:https://arxiv.org/abs/2302.14045 语言、多模式感知、动作和世界建模的大融合是通向通用 人工智能 的关键一步。在这项工作中,我们介绍了 Kosmos-1,这是一种多模态大型语言模型 (MLLM),它可以感知一般模 本文提出 Inst Diff Edit ,其目标是利用跨模态注意力能力,在扩散步骤中实现即时的掩码引导。Inst Diff Edit 配备了一个无需训练的精练方案,实现自动且准确的掩码生成。使用图像修补实现全局语义一致性。 卷友们好,我是中森。扩散模型自2020年的DDPM以来,以其种种优异的特性(如训练简便,对数据分布拟合效果极好,本身的构造体系使得性质调控更加优雅直接等),在两年来横扫整个学术界,甚至出圈引起了广泛的大众讨论。每一天都会有新的文章新的方法被提出,但因为领域发展得实在太快,这些文章往往基于不同阶段的扩散模型成果添砖加瓦,使得其在短至发表几个月后就已落伍或只有参考意义。如果对整个扩散领域发展的脉络没有...