只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
拔牙日记:
今天终于把这颗从高中就开始发炎的小狗牙拔掉了!!我就说这次感觉不是发炎这么简单没想到是烂到牙神经了[苦涩]我能坚持三天多亏了猛猛干布洛芬
拍片的时候出现了一个意外,因为不能带金属物品所以我的耳钉需要摘下来,可是摘下来以后!姐带不上了!戳了很久出血了,姐寻思不行,不能让它结痂啊,于是,我从后边给它戳进去了,所以未来我的耳钉都会反着戴。。。
以前一直觉得害怕,没想到完全不紧张(心里不紧张但是整个人都在抖)打麻药的时候就像被鱼刺扎了一下,第一口麻药被我咽了简直太恶心了直接干呕了,把整个房间的人都吓呆了[苦涩]等待着,半边脸都麻了,医生用一个什么东西磨我的牙,因为有一半已经烂了所以直接拿了一个螺丝刀一样的东西开始掘一些残渣。。。简直就是装修现场。烂了的部分已经全都碎了并发出阵阵恶臭,yue,此处嫌弃自己一万遍。清理完碎了的部分还有一半比较完整的,这时候一把大钳子(我想象的因为根本没敢睁眼看)开始扯另一半牙,还好,轻松拔出,我都不知道已经拔完了。医生还让我爸过来看看这个大胖牙,真的很胖啊,跟我想象中的牙完全不一样。回家打了消炎针并且以此为理由不回学校。麻药早就过了而且不疼已经能干三碗饭了,本来想最近不能吃饭要暴瘦几斤,看来不太行了。拔牙过程中一直在被鼓励让我放松,拔完以后医生说我配合的特别好[彩虹屁]
今天意外之喜有狗还有猫,亲亲宝贝们[彩虹屁]
今天终于把这颗从高中就开始发炎的小狗牙拔掉了!!我就说这次感觉不是发炎这么简单没想到是烂到牙神经了[苦涩]我能坚持三天多亏了猛猛干布洛芬
拍片的时候出现了一个意外,因为不能带金属物品所以我的耳钉需要摘下来,可是摘下来以后!姐带不上了!戳了很久出血了,姐寻思不行,不能让它结痂啊,于是,我从后边给它戳进去了,所以未来我的耳钉都会反着戴。。。
以前一直觉得害怕,没想到完全不紧张(心里不紧张但是整个人都在抖)打麻药的时候就像被鱼刺扎了一下,第一口麻药被我咽了简直太恶心了直接干呕了,把整个房间的人都吓呆了[苦涩]等待着,半边脸都麻了,医生用一个什么东西磨我的牙,因为有一半已经烂了所以直接拿了一个螺丝刀一样的东西开始掘一些残渣。。。简直就是装修现场。烂了的部分已经全都碎了并发出阵阵恶臭,yue,此处嫌弃自己一万遍。清理完碎了的部分还有一半比较完整的,这时候一把大钳子(我想象的因为根本没敢睁眼看)开始扯另一半牙,还好,轻松拔出,我都不知道已经拔完了。医生还让我爸过来看看这个大胖牙,真的很胖啊,跟我想象中的牙完全不一样。回家打了消炎针并且以此为理由不回学校。麻药早就过了而且不疼已经能干三碗饭了,本来想最近不能吃饭要暴瘦几斤,看来不太行了。拔牙过程中一直在被鼓励让我放松,拔完以后医生说我配合的特别好[彩虹屁]
今天意外之喜有狗还有猫,亲亲宝贝们[彩虹屁]
清照片看到了一些东西 不同的人同样的剧本 好像所有人都要在辜负和失望之后才会后悔
人们靠分开的痛觉来分辨爱意?不是这样的。需要等到分开才能分辨的爱意 本身就很轻贱 我不会走回头路 也不会给机会 往前走的每一步都不会后悔
尽管是普通的恋爱不掺杂ds的成分 我也用心对待了 所以我很珍惜和daddy相处的日子 也很想要爸爸同样这样想 能告诉我 我是珍贵的 是万中无一的属于他的小狗
好看的玫瑰如果枯萎了 再浇水就没有用了
人们靠分开的痛觉来分辨爱意?不是这样的。需要等到分开才能分辨的爱意 本身就很轻贱 我不会走回头路 也不会给机会 往前走的每一步都不会后悔
尽管是普通的恋爱不掺杂ds的成分 我也用心对待了 所以我很珍惜和daddy相处的日子 也很想要爸爸同样这样想 能告诉我 我是珍贵的 是万中无一的属于他的小狗
好看的玫瑰如果枯萎了 再浇水就没有用了
✋热门推荐