只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
所属学科:计算机
机器之心报道
编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。
为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。
该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。
具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。
首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。
第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。
我们来看一下该研究提出的具体方法。
方法介绍
给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。
更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。
该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。
为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。
为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:
稀有 token 标识符表示主题
该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。
效果展示
下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:
训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:
在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;
绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:
输入提示「a dog on top of sks container」就能让小狗坐在箱子里:
下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:
该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:
想要了解更多细节,请参考原论文。
我一份 我妈一份 大家来分点!
16岁的me!17岁的me!
努力完成新的目标吧22X!!!
新的一岁写歌的灵感越来越丰富!!!
开心录歌 享受音乐的包围✌
一定不要再长很痛的痘了
头发你也长慢点吧!少剪几次!!
继续保持个性
嘻嘻要保持有趣
不要变得
没有意思
然后要保持强壮的体魄!!
想要多一点新的尝试
下面这个照片谨慎观看哈哈哈哈哈哈哈哈哈哈哈哈
当时好神奇这个灯照了牙齿会发光哈哈哈
睡饱觉!!!
好好跳舞 跳自己的喜欢的舞
有更好的舞台
相信魔法
坚持
高中时光也要走一半了!珍惜高中生时间!!
很多风景都不要错过!!!
不知道今年冬天还可以看到雪吗?
——十七岁的阿志
记录一下,真没见过这么可爱的小东西,努力完成新的目标吧22X!!!
16岁的me!17岁的me!
努力完成新的目标吧22X!!!
新的一岁写歌的灵感越来越丰富!!!
开心录歌 享受音乐的包围✌
一定不要再长很痛的痘了
头发你也长慢点吧!少剪几次!!
继续保持个性
嘻嘻要保持有趣
不要变得
没有意思
然后要保持强壮的体魄!!
想要多一点新的尝试
下面这个照片谨慎观看哈哈哈哈哈哈哈哈哈哈哈哈
当时好神奇这个灯照了牙齿会发光哈哈哈
睡饱觉!!!
好好跳舞 跳自己的喜欢的舞
有更好的舞台
相信魔法
坚持
高中时光也要走一半了!珍惜高中生时间!!
很多风景都不要错过!!!
不知道今年冬天还可以看到雪吗?
——十七岁的阿志
记录一下,真没见过这么可爱的小东西,努力完成新的目标吧22X!!!
2022年11月19日星期六
清晨,我把对时间的最佳体验留给了阅读,并把最好的阅读感受留给了纸质书。
手边是一本新书《我离开之后》,一个名叫哈莉的女孩从小对死亡有莫名的恐惧,直到二十二三岁的某天晚上,她怎么都睡不着,“妈妈会死去”的念头又开始钻进她的脑海,她决定不在逃避,允许自己想象假如妈妈离去之后可能发生的一切,她想象着妈妈离去的第一天,第二天,之后的每一天,她想象的越来越深远, 她无法想象少了这个把她带到这个世界的人,她该如何独自前行,想到这里她的泪水再也忍不住了,于是她蹦出了一个想法,拜托她的妈妈写一个笔记,如果将来有一天她真的不在了,这本笔记可以指导她如何继续生活。于是她的妈妈苏西以“假如自己离开的状态下”完成了这本书, 这就是这本书的写作初衷。
这本书里的小女孩从面对妈妈的离世开始,经历了悲痛、埋葬妈妈,工作、结婚,生子,自己当上奶奶或外婆,衰老,生病,面对自己离去的过程。从“妈妈离开”的情境下的第1天叙述到了第20000天。
以下是部分故事内容:
第1天,用做美食来转移因为妈妈的离去而带来的悲伤情绪,虽然依旧会不停的流泪;
第2天,接受亲人朋友们因为妈妈的离开时而给与你的关心和慰藉;
第3天,给家里的宠物梳梳毛;
第4天,给我写一封信;
第5天, 用整理屋子来接受生命的无常和面对死亡的残酷;
第6天,出门去喜欢的餐厅好好吃一顿;
第7天,与我告别;
第12天,去看一场电影吧;
第18天, 摔东西;
去发泄吧,去放肆的哭一场吧,如果打碎了花瓶记得要收拾好,免得自己受伤;就像我们的人生,如果摔倒了,也要记得拾起来。
第45天,去给关心和帮助过你的人写一封感谢信吧;
第76天,深呼吸,调试丧失亲人带来的伤痛;
第231天,庆祝自己的生日;
第285天,给自己买一双好鞋;
我已经没有机会宠着你了,你要学会对自己好点;
第320天,停止自己不想做的时期;
比如 洗衣服、比如 切洋葱;
第365天,给自己做一顿从妈妈那里学来的好厨艺,给自己做一顿晚餐;比如:红烧肉
第400天,找人取代我,因为总沉浸在悲伤中,活着的你将错过人生的许多美好;
第450天,照镜子;
有一天你也会老去,记得你现在美丽的样子;
第500天,泡澡,点一支蜡烛,如果看见烛光摇曳,代表我已经来到你的身边,我从另一个世界来看你了;
第550天,做决定,无论时什么,列出最好和最糟糕的情况,如果最好的情况很棒,最糟的情况也能接受,那就取做吧;
第600天,换个角度看问题,如果5分钟后一颗流星撞向地球,你还会对现在的烦恼而忧心吗?你看,没什么问题是过不去的坎;
第700天,去看书吧 ,凌晨3点你醒来,心烦意乱,你没有机会告诉我,因为我已经不在了,可是你的内心很悲伤,那你就去看书吧,它能带你到另一时间和另一个地点,书能够带给你慰藉;
第850天,和我聊聊天;你看见了某样东西忽然又想起我,突然很沮丧,其实你还是可以和我聊聊的,因为我还没有被遗忘;
第900天,仰望天空 没有过去的事,无论是过去还是将来的,所有不顺心的都会烟消云散,一切都是浮云;
第1000天,为自己冒一次险, 遇到一个爱你的男人,你也爱他,于是你决定要结婚了;
第1500天,生孩子;接下来的日子你也成为了我,你也是“妈妈”了;
第1800天,唱我小时候我哄你时的那首歌给你的孩子听,让他或她乖乖睡觉;
第2000天,做个好梦,我顺路回来看你了,就算你醒来忘记了我在梦里和你说过的话,我说“妈妈,我爱你”。
第2500天,忍受痛苦与折磨, 受伤是生活的一部分,你一定不是这个世界上最悲惨的人,很多人随随便便都能超过你;
第3000天;和你的孩子聊聊死亡,当一男一女彼此相爱时,他们就会一起生宝宝,然后一起慢慢变老,死去。他们的宝宝也会长大,变老,死去。宝宝的宝宝也会如此;
第4000天,突然想起我 ;我离开之后,虽然有悲伤,但是我的离开并没有带走一切,我和你的珍贵回忆一起被留了下来,那些声音、味道,照片记录了我们在一起的点点滴滴;
第5000天,好好工作;工作不只是为了赚钱,它关乎你的生活质量,穷的叮当响其实很没有意思,你必须要有一定的收入,才能支持你继续追求自己的目标;
第7000天,列一个事件清单,排列它们的优先顺序。如果生活,工作和其他各种事压得你喘不过气来,时间完全不够用,你就把每件事都列下来,做一个排序,但是记住:好好照顾自己,应该排在清单的第一位。
第8000天,重新定义幸福
第9000天;玩游戏,喝咖啡
你发现自己生病了,你在等待检查的结果,病情的预测。与其担心着,不如玩会你喜欢的游戏,或去喝杯咖啡醒醒脑子,反正检查结果都一样。
第10000天,再次去体验世界
这时候你应该已经做外婆或奶奶了,你和孙子孙女在一起玩耍,从他们的角度去欣赏这个被你忽略的视角;
第14000天,列一个“避之不及”的清单;
第17000天,买根拐杖;
这个时候你已经70,80岁了,身体会出现各种问题,可能因为不小心摔倒,而去找医生,尽力避免这件事发生,去买根拐杖,拥有必要的工具来保护自己;
第18000天,对自己的身体好一点;
第20000天,计划一场理想的死亡;
想一想你离开的那一天在那里,穿什么,和谁在一起,放什么音乐;不管你身边有多少人陪伴,最后离开的时候都只有自己,因为这是你的人生舞台。
人生就像一场赌博,需要时刻保持镇定,有条不紊。这样,你才能在关键的时刻找到你的袜子。
每个人的人生故事都有无数种结果,无论是哪一种都没有关系。 人生本来就是不公平的。
很高兴你能陪我一起读完这本书,或许你并不需要这本书给你,就算没有这本书的陪伴,你依旧拥有面对未来的力量!
我很庆幸,我们在一起讨论关于死亡的话题.
此书的阅读笔记献给我的母亲。
清晨,我把对时间的最佳体验留给了阅读,并把最好的阅读感受留给了纸质书。
手边是一本新书《我离开之后》,一个名叫哈莉的女孩从小对死亡有莫名的恐惧,直到二十二三岁的某天晚上,她怎么都睡不着,“妈妈会死去”的念头又开始钻进她的脑海,她决定不在逃避,允许自己想象假如妈妈离去之后可能发生的一切,她想象着妈妈离去的第一天,第二天,之后的每一天,她想象的越来越深远, 她无法想象少了这个把她带到这个世界的人,她该如何独自前行,想到这里她的泪水再也忍不住了,于是她蹦出了一个想法,拜托她的妈妈写一个笔记,如果将来有一天她真的不在了,这本笔记可以指导她如何继续生活。于是她的妈妈苏西以“假如自己离开的状态下”完成了这本书, 这就是这本书的写作初衷。
这本书里的小女孩从面对妈妈的离世开始,经历了悲痛、埋葬妈妈,工作、结婚,生子,自己当上奶奶或外婆,衰老,生病,面对自己离去的过程。从“妈妈离开”的情境下的第1天叙述到了第20000天。
以下是部分故事内容:
第1天,用做美食来转移因为妈妈的离去而带来的悲伤情绪,虽然依旧会不停的流泪;
第2天,接受亲人朋友们因为妈妈的离开时而给与你的关心和慰藉;
第3天,给家里的宠物梳梳毛;
第4天,给我写一封信;
第5天, 用整理屋子来接受生命的无常和面对死亡的残酷;
第6天,出门去喜欢的餐厅好好吃一顿;
第7天,与我告别;
第12天,去看一场电影吧;
第18天, 摔东西;
去发泄吧,去放肆的哭一场吧,如果打碎了花瓶记得要收拾好,免得自己受伤;就像我们的人生,如果摔倒了,也要记得拾起来。
第45天,去给关心和帮助过你的人写一封感谢信吧;
第76天,深呼吸,调试丧失亲人带来的伤痛;
第231天,庆祝自己的生日;
第285天,给自己买一双好鞋;
我已经没有机会宠着你了,你要学会对自己好点;
第320天,停止自己不想做的时期;
比如 洗衣服、比如 切洋葱;
第365天,给自己做一顿从妈妈那里学来的好厨艺,给自己做一顿晚餐;比如:红烧肉
第400天,找人取代我,因为总沉浸在悲伤中,活着的你将错过人生的许多美好;
第450天,照镜子;
有一天你也会老去,记得你现在美丽的样子;
第500天,泡澡,点一支蜡烛,如果看见烛光摇曳,代表我已经来到你的身边,我从另一个世界来看你了;
第550天,做决定,无论时什么,列出最好和最糟糕的情况,如果最好的情况很棒,最糟的情况也能接受,那就取做吧;
第600天,换个角度看问题,如果5分钟后一颗流星撞向地球,你还会对现在的烦恼而忧心吗?你看,没什么问题是过不去的坎;
第700天,去看书吧 ,凌晨3点你醒来,心烦意乱,你没有机会告诉我,因为我已经不在了,可是你的内心很悲伤,那你就去看书吧,它能带你到另一时间和另一个地点,书能够带给你慰藉;
第850天,和我聊聊天;你看见了某样东西忽然又想起我,突然很沮丧,其实你还是可以和我聊聊的,因为我还没有被遗忘;
第900天,仰望天空 没有过去的事,无论是过去还是将来的,所有不顺心的都会烟消云散,一切都是浮云;
第1000天,为自己冒一次险, 遇到一个爱你的男人,你也爱他,于是你决定要结婚了;
第1500天,生孩子;接下来的日子你也成为了我,你也是“妈妈”了;
第1800天,唱我小时候我哄你时的那首歌给你的孩子听,让他或她乖乖睡觉;
第2000天,做个好梦,我顺路回来看你了,就算你醒来忘记了我在梦里和你说过的话,我说“妈妈,我爱你”。
第2500天,忍受痛苦与折磨, 受伤是生活的一部分,你一定不是这个世界上最悲惨的人,很多人随随便便都能超过你;
第3000天;和你的孩子聊聊死亡,当一男一女彼此相爱时,他们就会一起生宝宝,然后一起慢慢变老,死去。他们的宝宝也会长大,变老,死去。宝宝的宝宝也会如此;
第4000天,突然想起我 ;我离开之后,虽然有悲伤,但是我的离开并没有带走一切,我和你的珍贵回忆一起被留了下来,那些声音、味道,照片记录了我们在一起的点点滴滴;
第5000天,好好工作;工作不只是为了赚钱,它关乎你的生活质量,穷的叮当响其实很没有意思,你必须要有一定的收入,才能支持你继续追求自己的目标;
第7000天,列一个事件清单,排列它们的优先顺序。如果生活,工作和其他各种事压得你喘不过气来,时间完全不够用,你就把每件事都列下来,做一个排序,但是记住:好好照顾自己,应该排在清单的第一位。
第8000天,重新定义幸福
第9000天;玩游戏,喝咖啡
你发现自己生病了,你在等待检查的结果,病情的预测。与其担心着,不如玩会你喜欢的游戏,或去喝杯咖啡醒醒脑子,反正检查结果都一样。
第10000天,再次去体验世界
这时候你应该已经做外婆或奶奶了,你和孙子孙女在一起玩耍,从他们的角度去欣赏这个被你忽略的视角;
第14000天,列一个“避之不及”的清单;
第17000天,买根拐杖;
这个时候你已经70,80岁了,身体会出现各种问题,可能因为不小心摔倒,而去找医生,尽力避免这件事发生,去买根拐杖,拥有必要的工具来保护自己;
第18000天,对自己的身体好一点;
第20000天,计划一场理想的死亡;
想一想你离开的那一天在那里,穿什么,和谁在一起,放什么音乐;不管你身边有多少人陪伴,最后离开的时候都只有自己,因为这是你的人生舞台。
人生就像一场赌博,需要时刻保持镇定,有条不紊。这样,你才能在关键的时刻找到你的袜子。
每个人的人生故事都有无数种结果,无论是哪一种都没有关系。 人生本来就是不公平的。
很高兴你能陪我一起读完这本书,或许你并不需要这本书给你,就算没有这本书的陪伴,你依旧拥有面对未来的力量!
我很庆幸,我们在一起讨论关于死亡的话题.
此书的阅读笔记献给我的母亲。
✋热门推荐