如何简单高效地定制自己的文本作画模型？-环球今日讯

首页 > 行情 > > 内容页

如何简单高效地定制自己的文本作画模型？-环球今日讯

发表于: 2023-01-01 08:05:39 来源：

强烈建议先阅读：一文弄懂 Diffusion Model

1. 论文信息

标题：Multi-Concept Customization of Text-to-Image Diffusion

(资料图)

作者：Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.

原文链接：https://arxiv.org/pdf/2212.04488.pdf

代码链接：https://www.cs.cmu.edu/~custom-diffusion/

2. 引言

最近通过文本生成图像的深度学习相关技术取得了非常大的进展，2021已经成为了图像生成的一个新的milestone，诸如DALL-E和Stable diffusion这种模型都取得了长足的进步，甚至达到了“出圈”的效果。通过简单文本prompts，用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景，并把它们进行组合排序，这让现有的图像生成模型看上去是无所不能的。

但是，尽管这些模型具有多样性和一些泛化能力，用户经常希望从他们自己的生活中合成特定的概念。例如，亲人、朋友、宠物或个人物品和地点，这些都是非常有意义的concept，也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的，因此在大规模的模型训练过程中很难出现。事后通过详细的文字，来描述这种概念是非常不方便的，也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像，我们能否用新概念（例如宠物狗或者“月亮门”，如图所示）增强现有的文本到图像扩散模型？经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战：

首先，模型倾向于遗忘现有概念的含义：例如，在添加“moon gate”这一concept的时候，“moon”的含义就会丢失。其次，由于stable diffusion这样的网络往往参数会超级多，所以在小数据上训练模型，容易造成对训练样本进行过拟合，而且采样中变化也有限。此外，论文还关注了一个更具挑战性的问题，即组group fine-tuning，即能够超越单个个体concept的微调，并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的，比如 concept mixing以及concept omission。

在这项工作中，论文提出了一种fine-tuning技术，即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战，新方法固定一小部分模型权重，即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力，新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation，这可以让模型更快的收敛，并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上，并对各种数据集进行了实验，其中最少有四幅训练图像。对于添加单个concept，新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是，我们的方法可以有效地组成多个新concepts，而直接对不同的concepts进行组合的方法则遇到困难，经常会省略一个。最后，我们的方法只需要存储一小部分参数（模型权重的3％），消耗的GPU memory非常有限，同时也减少了fine-tuning的时间。

3. 方法

总结来讲，论文提出的方法，就是仅更新权重的一小部分，即模型的交叉注意力层。此外，由于目标概念的训练样本很少，所以使用一个真实图像的正则化集，以防止过拟合。

对于Single-Concept Fine-tuning，给定一个预训练的text-to-image diffusion model，我们的目标是在模型中加入一个新的concept，只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识，允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性，因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要，也比较有挑战。所以就仅仅fine-tuning新的K和V，而对于query，则保持不变，这样就可以增加新概念的同时，保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式：

概括起来实际上非常简单，就是训练一个k和v的矩阵，来扩充维度，增加模型的表征能力，使其能生成更为丰富的图像内容。

而对于Multiple-Concept Compositional Fine-tuning，为了对多个概念进行微调，我们将每个概念的训练数据集合并，并使用我们的方法将它们联合训练。为了表示目标概念，我们使用不同的修饰符的，并将它们与每个层的交叉注意关键和值矩阵一起初始化，并优化它们。通过将权重更新限制为交叉注意key和value参数，与DreamBooth等方法相比，可以显着更好地将两个概念合并在一起。

由于我们的方法仅更新与文本特征相对应的key和value投影矩阵，因此我们可以将它们合并，以允许使用多个微调概念生成。让集合表示预训练模型中所有交叉注意层的key和value矩阵，并且表示添加概念的相应更新矩阵。由于方法随后的优化适用于所有层和key矩阵，为了简洁起见忽略key和value的上标以及层。我们将合成目标表述为以下约束最小二乘问题：

这里，是维度为的文本特征。这些是个跨越所有个concept的目标词.

可以发现，增加约束还是让模型具有更强的表征能力的。最下面一行才和真正的门比较相似，同时生成的月亮也非常合理。

4. 实验

给定一个新concepts的图像如左侧显示的目标图像，提出的方法可以在看不见的上下文和艺术风格中生成带有该概念的图像。第一行：代表水彩画艺术风格中的概念。方法还可以在背景中生成山脉，而 DreamBooth 和 Textual Inversion 忽略了这一点。第二行：改变背景场景。我们的方法和 DreamBooth 的表现与 Textual Inversion 相似且更好。第三行：添加另一个对象，例如带有目标桌子的橙色沙发。新的方法成功地添加了另一个对象。第四行：改变对象属性，如花瓣的颜色。第五行：用太阳镜装饰私人宠物猫。我们的方法比基线更好地保留了视觉相似性，同时仅更改花瓣颜色或为猫添加太阳镜。

可以发现Multiple-Concept Compositional Fine-tuning的效果也非常惊艳。

风格迁移的效果也不错。

定量指标也有比较有竞争力的表现：

5. 结论

论文提出了一种基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的图像示例，新方法就能一高效的方法生成微调概念的新样本同时保留原有的生成能力。而且，我们只需要保存一小部分模型权重。此外，方法可以连贯地在同一场景中组合多个新概念，这是之前的方法所缺少的能力。

标签：一个新的训练样本艺术风格

旌晶食品开展健康科普宣传活动落实国民营养计划

2022-05-23查看详情

山东青岛：楼宇经济体劳动争议预防调解联盟成立

2022-02-15查看详情

电力巡线工“偏向虎山行”

2022-02-15查看详情

如何简单高效地定制自己的文本作画模型？-环球今日讯

如何简单高效地定制自己的文本作画模型？-环球今日讯

全球观速讯丨事关持仓、套期保值等，证监会统一规范期货市场持仓管理

世界速讯：博克斯拟投资1000万设立全资子公司江苏博克斯环保科技有限公司

新大陆股东户数下降1.56%，户均持股18.33万元

当前聚焦：正荣地产：2022年全年累计完成4万余套房屋交付

1830亿元！中国人民银行发布最新公告 环球聚焦

【全球速看料】记一次QQ找回经历

当前热门：中信证券：预计1月份迎来明年最佳配置时点 继续围绕三条内需主线均衡配置

天天要闻：绝味食品: 绝味食品股份有限公司独立董事关于第五届董事会第十次会议相关事项的独立意见

记者探营Tech G：蚂蚁集团“城市生活”数字化方案集中展出_新消息

迪普科技12月29日盘中涨幅达5%-世界热讯

天奥电子: 2022年第四次临时股东大会决议公告 世界微资讯

【国际漫评】尬聊

天永智能最新公告：签署2.40亿元2GW动力电池产线设备买卖合同 全球速看料

深圳坪山城投10亿元中票状态更新为“待上会”

乙类乙管后可以不戴口罩吗？白肺与原始毒株有关吗？

中航电子：融资净偿还4857.47万元，融资余额8.57亿元（12-27） 全球球精选

邯郸市各区县返乡报备电话汇总

全球快资讯：中上协：11月境内市场净增上市公司33家 首发募资总额超280亿元

藏格矿业：12月26日获融资买入801.50万元，占当日流入资金比例8.29%

世界快报:会计-租赁出租人融资租赁

奥维通信(002231.SZ)：控股股东所持5.92%股份将被司法拍卖 天天热讯

引领行业精品新标准 武极精品店铺12月26日正式上线

香港知名男星变“失踪人口”！身高不到一米七，被误传患艾滋离世_全球最新

卵巢癌和生活方式有关7个生活细节远离疾病-世界新资讯

投资者、上市公司买理财热情“降温”，银行理财子公司大举自购-世界微资讯

安科生物(300009)：董事会、监事会完成换届选举及聘任高级管理人员、其他人员_焦点报道

本周盘点（12.19-12.23）：中信证券周跌3.04%，主力资金合计净流出4.00亿元

艺术品市场助力中国式现代化论坛召开-焦点快播

环球微资讯！康弘药业: 关于公司收到药品注册证书的公告

环球聚焦：香山股份（002870）12月22日主力资金净卖出674.42万元

【世界报资讯】2023-2028年中国猪肉行业市场全景评估及投资战略规划研究报告

东方盛虹: 关于发行GDR价格区间确定及招股说明书获得瑞士证券交易所监管局招股说明书办公室批准的公告 环球今日讯

实至名归！中国女排运动员朱婷获金狮奖

当前通讯！诺唯赞（688105）12月20日主力资金净卖出1427.89万元

【手慢无】历史新低！2149元抢购12代酷睿i5-12400电脑

环球快报:叮当钱包借款逾期二个月延迟还款会影响征信吗

天天热门:环杭州湾大湾区板块11月7日涨0.91%，*ST围海领涨，主力资金净流出2693.95万元

同益科技(838012):转让子公司认缴出资额暨关联交易

安徽省五河县小圩镇：主动靠前服务 助企纾困解难 全球消息

鸡西房屋诉讼律师收费最新标准-环球视讯

世界今头条！神州数码: 神州数码2023年股票期权激励计划自查表

环球快报:京东白条逾期一年会对银行征信有影响吗

房价是楼面价的几倍（楼面价4500房价多少钱） 观天下

安集科技(688019):5%以上股东集中竞价减持达到1%暨减持股份结果 热文

世界速看：国网青海电力首个直流控保仿真平台建成投运

工业自动化向智能化转型升级，“AI+3D视觉”赋能企业降本增效

文一科技(600520.SH)主要股东瑞真商业减持1.26%股份

进入关键转型期，华致酒行抢得酒水行业发展先机

动态：超值的装载机

世界快报:镇平高丘镇：在“净起来”上发力 在“美起来”上做文章

一汽富维：考虑到公司未来投资及经营发展，慕集资金是为谋求企业发展，把握市场机会

11月货币数据：社融增速创下新低，消费、地产需求仍待提振 环球热资讯

ESR(01821.HK)建议透过公开募集基础设施证券投资基金分拆物流资产于上交所独立上市 视点

富森美8月11日主力资金净买入541.02万元

美国借口所谓“西藏人权”制裁两名中国官员 中方：坚决反对强烈谴责|全球观热点

A股异动 | 广生堂涨4% 新冠口服药GST-HG171片I期临床试验达到预期目的_世界通讯

环球动态:火星人涨7.68%，开源证券一个月前给出“买入”评级

环球焦点！央视：世界杯开赛以来CCTV-5收视率增长498%

新洋丰：目前公司尚未开展年度审计工作，敬请关注公司后续发布的定期报告中的相关内容

腾讯公布2022年第二季度财务数据 出现营收和利润双下滑

人均税前13万元 贵州茅台再招873人 涉制酒工等岗位

旌晶食品开展健康科普宣传活动 落实国民营养计划

31篇作品获奖 “深圳湾”文化评论大赛颁奖典礼举行

深圳发布生物多样性保护行动计划 形成“1+6+63”体系

开启前海跨境贸易“加速度” 深圳海关推出18项细化措施

超千亿元 绵阳82个重大产业项目集中签约

旌晶食品开展健康科普宣传活动 落实国民营养计划

美联储货币政策加速收紧 国际黄金价格持续走弱

斯诺威矿业54.3%股权遭疯抢 锂矿股逆势上涨

株洲3家文化企业率先挂牌“尝鲜” 拟融资942万元

江苏华昌化工水资源利用方面结硕果 荣获多项荣誉称号

江苏省消保委调查14家新能源车企 纠正“霸王条款”

江苏省4市新建商品住宅下跌 南京一二手房价均环比下跌

江苏出台20条助企纾困措施 助力外贸外资平稳发展

“弄虚作假”现象频现 常州4家保险公司被罚

聚焦“智改数转” 苏州亮出数字经济新成效

无锡推出专精特新专项“加速包” 助力企业高质量成长

苦等11个月还是选择放弃 冰峰撤回IPO申请

1830亿元！中国人民银行发布最新公告环球聚焦

当前热门：中信证券：预计1月份迎来明年最佳配置时点继续围绕三条内需主线均衡配置

天奥电子: 2022年第四次临时股东大会决议公告世界微资讯

天永智能最新公告：签署2.40亿元2GW动力电池产线设备买卖合同全球速看料

中航电子：融资净偿还4857.47万元，融资余额8.57亿元（12-27）全球球精选

全球快资讯：中上协：11月境内市场净增上市公司33家首发募资总额超280亿元

奥维通信(002231.SZ)：控股股东所持5.92%股份将被司法拍卖天天热讯

引领行业精品新标准武极精品店铺12月26日正式上线

东方盛虹: 关于发行GDR价格区间确定及招股说明书获得瑞士证券交易所监管局招股说明书办公室批准的公告环球今日讯

安徽省五河县小圩镇：主动靠前服务助企纾困解难全球消息

房价是楼面价的几倍（楼面价4500房价多少钱）观天下

安集科技(688019):5%以上股东集中竞价减持达到1%暨减持股份结果热文

世界快报:镇平高丘镇：在“净起来”上发力在“美起来”上做文章

11月货币数据：社融增速创下新低，消费、地产需求仍待提振环球热资讯

ESR(01821.HK)建议透过公开募集基础设施证券投资基金分拆物流资产于上交所独立上市视点

美国借口所谓“西藏人权”制裁两名中国官员中方：坚决反对强烈谴责|全球观热点

腾讯公布2022年第二季度财务数据出现营收和利润双下滑

人均税前13万元贵州茅台再招873人涉制酒工等岗位

旌晶食品开展健康科普宣传活动落实国民营养计划

深圳发布生物多样性保护行动计划形成“1+6+63”体系

超千亿元绵阳82个重大产业项目集中签约

旌晶食品开展健康科普宣传活动落实国民营养计划

美联储货币政策加速收紧国际黄金价格持续走弱

斯诺威矿业54.3%股权遭疯抢锂矿股逆势上涨

江苏华昌化工水资源利用方面结硕果荣获多项荣誉称号

江苏省消保委调查14家新能源车企纠正“霸王条款”

江苏省4市新建商品住宅下跌南京一二手房价均环比下跌

江苏出台20条助企纾困措施助力外贸外资平稳发展

“弄虚作假”现象频现常州4家保险公司被罚

苦等11个月还是选择放弃冰峰撤回IPO申请

1天办妥3000万元贷款梁溪区市场监管局为企业解燃眉之急

截至2021年底全国乘用车产能利用率仅为52.47%

夫妻二人用工业硫磺熏制竹笋查获20余吨

虚假宣传等老问题占比较大车主权益如何保障？

金稳委重磅发声共同维护资本市场稳定发展

三部门：加快推动城市货运配送体系绿色低碳发展

七旬养猪老汉系外省命案逃犯持刀杀人潜逃13年后宿迁落网

广西百色疫情社区传播链基本阻断社会面基本实现清零

上班时间向招聘网站投简历被裁媒体：职场数字化管理别

广西百色：社会面基本清零健康码转码工作有序开展

广西贺州“碰瓷女王”重操旧业再度入狱

外卖小哥热汤圆吃出幸福感生活不易愿被社会温柔以待

预制菜“大热”元宵餐桌中国 “Z世代”成掌勺主力

山东泰安：提升执法司法质效让执法监督长出“牙齿”

农机助力种地省心

扎根中国大地办出中国特色争创世界一流

守护海陀之巅走近国内第一支专业高山救援队

把算法开关交给消费者以保障消费者权益

从货担郎到日售数千斤兰州手艺人40余载“滚”元宵留年

河南晒出2021年交通“成绩单”：村村通、户户通农村公

身边小商铺连着千万家

一男子地铁站晕倒休克路过女护士出手相救

河南中小学将迎开学季多地要求返校师生须核酸检测

安徽新增1例无症状感染者系境外输入

江苏南通发现1人检测结果呈阳性系外地返通人员

广西新增1例本土确诊病例本轮本土疫情累计报告确诊病例

葫芦岛市两医院不再收治非绥中地区患者就医患者闭环管理