块级LoRA:个性化与风格化在文本到图像生成中的新突破
人工智能咨询培训老师叶梓 转载标明出处
文本到图像生成技术的核心目标是教会预训练模型根据输入的文本提示生成具有特定主题和风格的新颖图像。尽管已有多种微调技术被提出,但它们在同时处理个性化和风格化方面仍存在不足,导致生成的图像在个人身份和风格概念上出现不一致。
为了克服现有方法的局限性,华为的研究团队提出了块级LoRA方法。这种方法通过在Stable Diffusion(SD)模型的不同块上执行细粒度的低秩微调,生成与输入提示相符、目标身份明确且具有期望风格的图像。通过大量实验,研究团队证明了块级LoRA方法的有效性。
方法
之前提出的图像生成(T2I)个性化和风格化的方法是基于文本反演的方法将文本信息反向转换为个性化的视觉表示,增强基于扩散的生成模型的适应性和定制性。DreamBooth及其后续方法通过优化整个SD网络权重来学习特定主题的先验,从而在输出图像中实现更高的主题保真度。与此不同,以LoRA为代表的方法是通过不同的重新参数化解决了这一任务,这更为轻量级和高效。
LoRA最初是作为NLP领域大模型的微调方法提出的,后来被引入到SD模型中,用于高效的图像生成(T2I)。LoRA指出,预训练模型的权重矩阵具有低内在特征维度,因此可以将模型的权重更新分解为两个低维矩阵。在微调过程中,原始权重被冻结,只有矩阵A和B是可调的。这样,前向计算过程可以更新为h = W0x + BAx,其中h是输出特征图。
块级LoRA方法是对现有的LoRA(Low-Rank Adaptation)方法的一种改进,目的是为了解决在结合不同类型的全块微调LoRAs时生成结果不满意的问题。
通常SD(Stable Diffusion)的LoRA是通过在U-Net的所有块上执行低秩微调来实现的,这包括了LoCon(LoRA for Convolution Network)中进一步涉及的卷积层。然而,当将这些全块微调的LoRAs用于T2I生成时,往往得到的生成结果并不令人满意。为了改善这种情况,研究者们专注于研究U-Net的哪些部分应该进行微调,以实现更好的个性化和风格化。具体如下:
通过将LoRA矩阵的秩设置为零,可以跳过当前块的LoRA微调。这样,SD就会使用原始的预训练权重,而不是添加LoRA的权重。公式(2)展示了这一过程:其中,ℎ是输出特征图,
是预训练的权重,B 和 A 是LoRA中的低秩矩阵。
为了控制SD中U-Net的不同部分进行LoRA微调,研究者们将U-Net划分为几个部分,如图1所示。这包括四个内部块(in-blocks)、一个中间块(mid-block)和四个外部块(out-blocks)。通过这种设计,可以对U-Net的不同块执行细粒度的低秩微调,并分别评估不同设置在个性化和风格化任务中的生成性能。
实验
实验使用了多种数据集,其中包括Manga Face Dataset作为漫画风格LoRA的训练数据集。对于其他风格LoRA和角色LoRA,作者使用了自定义的训练数据集。每个数据集包含20张图像,每张图像重复25次,并伴有大约500张由基础模型生成的正则化图像。这一设置旨在增强模型的泛化能力,并减少过拟合的风险。
在训练过程中,研究者采用了Stable Diffusion 1.4作为基础的T2I生成模型,并设置了11,000步的微调步骤和2的批量大小。在推理阶段,使用了DPM 2M++ Karras作为采样器,采样步数为25,无分类器引导(CFG)的比例设为7.0,生成图像的分辨率与训练图像保持一致。为了进行公平比较,所有方法的推理提示和超参数都保持固定。
研究者将块级微调方法与原始的LoRA/LoCon方法进行了比较,如图2和图3所示。实验结果显示,块级LoRA/LoCon模型在个性化和风格化方面的表现优于LoRA/LoCon模型。LoRA/LoCon在生成具有目标风格的图像方面失败了,而块级LoRA/LoCon微调在个性化方面具有明显优势。
在消融研究中,研究者评估了三种不同类型的角色LoCon和风格LoCon的组合性能。每种块级LoCon组合都可以混合角色和风格。然而,如图4(a)所示,块级ID LoCon与风格LoCon的组合风格与风格LoCon输入不匹配,块级ID LoCon与块级风格LoCon的组合丢失了太多角色的个人细节。说明ID LoCon与块级风格LoCon的组合在消融研究中表现最佳,它不仅能够保持角色的个人细节,还能像LoCon输入一样改变绘画风格。
研究者还探索了在ID LoCon与块级LoCon的组合中应该保留哪些块。他们将块级LoCon块均匀地分成三部分,在每次训练过程中激活其中一部分。如图1所示,"上部块"是In-Block0 + Out-Block3,"中部块"是In-Block1 + Out-Block2,"下部块"是In-Block2 + Out-Block1。图4(b)提供了结果。可以看到,仅激活上部块时,即顶部输入块和顶部输出块,输出图像完美地保持了角色的细节和风格。仅激活中部块时,输出失去了风格,但角色的细节更多地显示在图片中。当仅激活下部块时,所有目标信息和概念都缺失了。
通过这些详细的实验设置和结果分析,展示了块级LoRA方法在提高文本到图像生成任务的个性化和风格化方面的有效性。
论文链接:https://arxiv.org/abs/2403.07500
项目链接:https://github.com/cloneofsimo/lora
相关文章:
![](https://i-blog.csdnimg.cn/direct/5d31149c0c8446ba9b5745da7b92832a.png)
块级LoRA:个性化与风格化在文本到图像生成中的新突破
人工智能咨询培训老师叶梓 转载标明出处 文本到图像生成技术的核心目标是教会预训练模型根据输入的文本提示生成具有特定主题和风格的新颖图像。尽管已有多种微调技术被提出,但它们在同时处理个性化和风格化方面仍存在不足,导致生成的图像在个人身份和风…...
![](https://www.ngui.cc/images/no-images.jpg)
redis的数据结构——压缩表(Ziplist)
压缩表(Ziplist)是Redis中一种紧凑的数据结构,主要用于节省内存。它通常被用于存储少量的字符串或小整数,尤其在列表类型(List)和哈希类型(Hash)中。当数据量较小或数据本身占用内存较少时,Redis会选择用压缩表来存储数据,以减少内存开销。 压缩表的基本结构 压缩表…...
![](https://i-blog.csdnimg.cn/direct/adfc536258a74667ba1fe06b94826e18.png)
探索未知,悦享惊喜 —— 您的专属盲盒一番赏小程序盛大开启
在这个充满奇遇与惊喜的时代,每一份未知都蕴藏着无限可能。为了将这份独特的乐趣带到您的指尖,我们精心打造了“悦赏盲盒”小程序,一个集潮流、趣味、收藏于一体的全新互动平台,让每一位用户都能享受到拆盲盒的乐趣,发…...
![](https://i-blog.csdnimg.cn/direct/b8326976cc6543d7a0d260f3291f309e.png)
dompdf导出pdf中文乱码显示问号?
环境:PHP 8.0 框架:ThinkPHP 8 软件包:phpoffice/phpword 、dompdf/dompdf 看了很多教程(包括GitHub的issue、stackoverflow)都没有解决、最终找到解决问题的根本! 背景:用Word模板做转PDF…...
![](https://i-blog.csdnimg.cn/direct/53d0ddd45bdb40908bb91095e525ed7b.png)
韩顺平Java-第二十四章:MYSQL基础篇
一 数据库 1 数据库简单原理图 2 使用命令行窗口连接MYSQL数据库 (1)mysql -h 主机名 -P 端口 -u 用户名 -p密码; (2)登录前,保证服务启动。 3 MySQL三层结构 (1)所谓安装MySQL数…...
![](https://i-blog.csdnimg.cn/direct/28df4526282749f088d6a15e1458aa28.png)
【动态规划算法题记录】最长/最大 问题汇总 (leetcode)
目录 32. 最长有效括号思路代码 300. 最长递增子序列思路代码 674. 最长连续递增序列思路1:双指针代码1:双指针思路2:dp代码2:dp 718. 最长重复子数组思路1:dp代码1:dp思路2:dp优化代码2&#x…...
![](https://i-blog.csdnimg.cn/direct/233982fbf8eb425699afdc2bdb2f71a9.png)
2020 位示图
2020年网络规划设计师上午真题解析36-40_哔哩哔哩_bilibili 假设某计算机的字长为32位,该计算机文件管理系统磁盘空间管理采用位示图(bitmap),记录磁盘的使用情况。若磁盘的容量为300GB,物理块的大小为4MB,…...
![](https://www.ngui.cc/images/no-images.jpg)
富格林:防止陷入黑幕欺诈平台
富格林指出,不少投资者因未做好投资准备而不慎误入黑幕欺诈平台,造成了不必要的亏损。投资者在投资前,需要时刻保持警惕,根据市场行情,作出有依据的投资决定,而不是依赖黑幕欺诈平台的噱头进行投资。建议投…...
![](https://www.ngui.cc/images/no-images.jpg)
Cookie、Session 、token
Cookie 优点: 简单易用: 浏览器自动管理 Cookie 的发送和接收。持久性: 可以设置过期时间,使其可以在浏览器关闭后依旧存在。广泛支持: 所有现代浏览器都支持 Cookie。 缺点: 安全性问题: 存储在客户端,容易被查看和篡改。敏感信息不应直接存储在 Co…...
![](https://www.ngui.cc/images/no-images.jpg)
Json-类型映射使用TypeFactory或者TypeReference
当你需要将JSON数据转换为Java中的复杂类型时,可以使用Jackson库中的TypeFactory或 者TypeReference。这两种方式可以帮助你处理复杂的泛型类型,例如 List<Map<String, Object>> 或者 Map<String, List<Object>>。 示例 1: 使用 TypeFactory 和 T…...
![](https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8)
Linux shell编程学习笔记73:sed命令——沧海横流任我行(上)
0 前言 在大数据时代,我们要面对大量数据,有时需要对数据进行替换、删除、新增、选取等特定工作。 在Linux中提供很多数据处理命令,如果我们要以行为单位进行数据处理,可以使用sed。 1 sed 的帮助信息,功能ÿ…...
![](https://i-blog.csdnimg.cn/direct/7f2c90b14d574cc2b22d746137b51026.png)
内网渗透之icmp隧道传输
原理 # 为什么要建立隧道 在实际的网络中,通常会通过各种边界设备软/硬件防火墙、入侵检测系统来检查对外连接的情况,如果发现异常,会对通信进行阻断。 # 什么是隧道 就是一种绕过端口屏蔽的方式,防火墙两端的数据包通过防火墙…...
![](https://i-blog.csdnimg.cn/direct/a41ed43455584c69b0b8f07b82b70c74.png)
【C++ 第十五章】map 和 set 的封装(封装红黑树)
1. map 和 set 的介绍 ⭐map 与 set 分别是STL中的两种序列式容器; 它们是一种树形数据结构的容器,且其的底层构造为一棵红黑树; 而在上一篇文章中提到,其实红黑树本身就是一棵二叉搜索树,是基于二叉搜索树的性质对其增加了平衡的属性来提高其综合性能 ⭐当然也…...
![](https://i-blog.csdnimg.cn/direct/36ceef679cbc433cb22e4608e70eb89a.png)
LIN通讯
目录 1 PLinApi.h 2 TLINFrameEntry 结构体 3 自定义函数getTLINFrameEntry 4 TLINScheduleSlot 结构体 5 自定义函数 getTLINScheduleSlot 6 自定义LIN_SetScheduleInit函数 7 自定义 LIN_StartSchedule 8 发送函数 9 线程接收函数 1 PLinApi.h 这是官方头文件 ///…...
![](https://i-blog.csdnimg.cn/direct/e58653031ebd4f949a05059338983f5f.png)
zabbix常见架构及组件
Zabbix作为一个开源的、功能全面的监控解决方案,广泛应用于各类组织中,以实现对网络、服务器、云服务及应用程序性能的全方位监控。部署架构灵活性高,可支持从小型单一服务器环境到大型分布式系统的多种场景。基本架构通常包括监控端…...
![](https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8)
plsql表格怎么显示中文 plsql如何导入表格数据
在Oracle数据库开发中,PL/SQL Developer是一款广泛使用的集成开发环境(IDE),它提供了丰富的功能来帮助开发人员高效地进行数据库开发和管理。在使用PL/SQL Developer时,许多用户会遇到表格显示中文的问题,以…...
![](https://i-blog.csdnimg.cn/direct/54d7c61f0ce84847bc892ba5a00b3b4a.png)
chromedriver下载地址大全(包括124.*后)以及替换exe后仍显示版本不匹配的问题
Chrome for Testing availability CNPM Binaries Mirror 若已经更新了系统环境变量里的chromdriver路径下的exe,仍显示版本不匹配: 则在cmd界面输入 chromedriver 会跳出version verison与刚刚下载好的exe不匹配,则再输入: w…...
![](https://www.ngui.cc/images/no-images.jpg)
拦截器实现 Mybatis Plus 打印含参数的 SQL 语句
1.实现拦截器 package com.sample.common.interceptor;import com.baomidou.mybatisplus.extension.plugins.inner.InnerInterceptor; import lombok.extern.slf4j.Slf4j; import org.apache.ibatis.executor.Executor; import org.apache.ibatis.mapping.BoundSql; import or…...
![](https://www.ngui.cc/images/no-images.jpg)
Oracle Subprogram即Oracle子程序
Oracle Subprogram,即Oracle子程序,是Oracle数据库中存储的过程(Procedures)和函数(Functions)的统称。这些子程序是存储在数据库中的PL/SQL代码块,用于执行特定的任务或操作。下面详细介绍Orac…...
![](https://i-blog.csdnimg.cn/direct/7177f6e837be4421a6d71da2dd677fcc.png)
自然语言处理实战项目30-基于RoBERTa模型的高精度的评论文本分类实战,详细代码复现可直接运行
大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目30-基于RoBERTa模型的高精度的评论文本分类实战,详细代码复现可直接运行。RoBERTa模型是由 Facebook AI Research 和 FAIR 的研究人员提出的一种改进版的 BERT 模型。RoBERTa 通过采用更大的训练数据集、动态掩码机…...
![](https://img-blog.csdnimg.cn/img_convert/69403ac1319a5ec55559cf04833b9317.png)
RK3588J正式发布Ubuntu桌面系统,丝滑又便捷!
本文主要介绍瑞芯微RK3588J的Ubuntu系统桌面演示,开发环境如下: U-Boot:U-Boot-2017.09 Kernel:Linux-5.10.160 Ubuntu:Ubuntu20.04.6 LinuxSDK: rk3588-linux5.10-sdk-[版本号] (基于rk3…...
![](https://i-blog.csdnimg.cn/direct/8d671ac25eaf445b988349759c0b6c19.png)
基于GPT-SoVITS的API实现批量克隆声音
目标是将每一段声音通过GPT-SoVITS的API的API进行克隆,因为拼在一起的整个片段处理会造成内存或者缓存溢出。 将目录下的音频文件生成到指定目录下,然后再进行拼接。 通过AI工具箱生成的数据文件是这样的结构,temp目录下是没个片段生成的部分,connect_是正常拼接的音频文件…...
![](https://img-blog.csdnimg.cn/img_convert/850042f80baf18aef706763aea8424ba.png)
详解华为项目管理,附华为高级项目管理内训材料
(一)华为在项目管理中通过有效的沟通、灵活的组织结构、坚持不懈的努力、细致的管理和科学的考核体系,实现了持续的创新和发展。通过引进先进的管理模式,强调以客户需求为导向,华为不仅优化了技术管理和项目研发流程&a…...
![](https://www.ngui.cc/images/no-images.jpg)
Perl(Practical Extraction and Reporting Language)脚本
Perl(Practical Extraction and Reporting Language)是一种非常灵活的脚本语言,主要用于文本处理、系统管理以及快速原型开发等领域。Perl 脚本可以用来执行一系列任务,包括文件操作、网络通信、数据处理等。 下面是一些关于编写…...
![](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fi.loli.net%2F2021%2F10%2F12%2F4kVzZ6mKBNsPdy3.png&pos_id=img-fXOkCyZV-1724216570558)
单例模式详细
文章目录 单例模式介绍八种方式1、饿汉式(静态常量)2、饿汉式(静态代码块)3、懒汉式(线程不安全)4、懒汉式(线程安全,同步方法)5、懒汉式(线程不安全…...
![](https://i-blog.csdnimg.cn/direct/620cb347e3064d71b90cf80c2f69f00b.png#pic_center)
Unity3D 自定义窗口
Unity3D 自定义窗口的实现。 自定义窗口 Unity3D 可以通过编写代码,扩展编辑器的菜单栏和窗口。 简单的功能可以直接一个菜单按钮实现,复杂的功能就需要绘制一个窗口展示更多的信息。 编辑器扩展的脚本,需要放在 Editor 文件夹中。 菜单栏…...
![](https://i-blog.csdnimg.cn/direct/300ebc8d0eb143629bb75e7f63c85e30.png)
dubbo:dubbo整合nacos实现服务注册中心、配置中心(二)
文章目录 0. 引言1. nacos简介及安装2. 注册中心实现3. 配置中心实现4. 源码5. 总结 0. 引言 之前我们讲解的是dubbozookeeper体系来实现微服务框架,但相对zookeeper很多企业在使用nacos, 并且nacos和dubbo都是阿里出品,所以具备一些天生的契合性&#…...
![](https://www.ngui.cc/images/no-images.jpg)
个人博客指路
Pudding 个人博客 比较懒,直接 github page 了,没国内代理加速。 欢迎大佬们,踩一踩 没做留言,觉得很鸡肋。有问题可以在本文底下评论、或者直接邮件...
![](https://i-blog.csdnimg.cn/direct/38702d5bc8b349b39c65fc861fbb2546.png)
【STM32 HAL】多串口printf重定向
【STM32 HAL】多串口printf重定向 前言单串口printf重定向原理实现CubeMX配置Keil5配置 多串口printf重定向 前言 在近期项目中,作者需要 STM32 同时向上位机和手机发送数据,传统的 printf 重定向只能输出到一个串口。本文介绍如何实现 printf 同时输出…...
![](https://img-blog.csdnimg.cn/img_convert/dbd60d15ab53239ab4f2d3c11c52aae6.png)
帆软报表,达梦数据库驱动上传失败
1、按照正常操作新建数据库连接,上传准备好的达梦驱动时,提示如图一需要修改SystemConfig.driverUpload为true才可以。 2、FineDB存储了数据决策系统中除平台属性配置以外的所有信息。详情请参见: FineDB 数据库简介。 3、因此管理员可通过…...
![](/images/no-images.jpg)
建设一个班级网站的具体步骤/外链工厂
阅读使人充实,会谈使人敏捷,写作使人精确。——培根Linux 系统管理员试卷样题(中级)一、选择题:1、linux 操作系统内核创始人是( )A. Bill GatesB. Richard StallmanC. Linus TorvaldsD. Dennis M Ritchie 、Ken Thompson2、在linux 中有关I…...
![](https://img-blog.csdnimg.cn/011ac44a31754607a9db9d57388db44f.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6IOW5ZOl546L6ICB5biI,size_8,color_FFFFFF,t_70,g_se,x_16#pic_center)
上海做网站的公司电话/seo专家招聘
前文回顾 《物联网系统RT-Thread学习—开发环境搭建》 《物联网系统RT-Thread学习—内核学习》 本集预告 本次来介绍一下RTT下面的IO设备驱动开发。具体内容可以学习官方文档,内容完备,并附带例子程序 I/O设备模型 这里就不再去复制粘贴了࿰…...
![](https://img-blog.csdnimg.cn/20190804210711568.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjIwNTc3Ng==,size_16,color_FFFFFF,t_70)
怎样做网站内链/宁德市人民医院
转:https://blog.csdn.net/u013673437/article/details/80534839 在编写MATLAB程序过程中,有时会遇到当程序运行到不满足if条件时让程序跳出,停止运行的情况,在MATLAB中,使用return语句实现程序跳出。 只将以上程序中变…...
![](https://static.oschina.net/uploads/user/1124/2248293_100.jpg?t=1416124120000)
南平住房和城乡建设部网站/新品牌推广策划方案
ASP.NET MVC 中 WebGrid 的 6 个重要技巧 https://www.oschina.net/translate/webgrid-in-asp-net-mvc-important-tips 介绍 当一个 Webform 开发者转做 MVC 开发的时候, 他会发现, 许多自己喜欢的东东不见了. 没有代码隐藏模型(behind code), 没有 view state, 没有页面生命周…...
![](/images/no-images.jpg)
网站设计公司哪家比较好/黄山网站建设
1.搜索remove.bghttps://www.remove.bg/2.翻译(网站翻译或者谷歌翻译)首页底端3.登陆账号(没注册注册)4.获取密钥4.14.24.34.44.55、查看API5.15.2跳转到GitHubhttps://github.com/brilam/remove-bg6、应用(参考GitHub)6.1安装pip install removebg6.2三种形式的文件(本地文件、…...
![](https://img-blog.csdnimg.cn/7538165d2acb4641818ba073c2b77608.png)
当阳网站建设/软件开发培训机构
文章目录前言创建项目并添加依赖编写代码并测试总结前言 在日常 Java 开发中,一般都需要进行单元测试,而 Mock 测试则是单元测试中的重要方法之一。所谓 Mock 测试,就是指在测试过程中,对于一些不容易构造或难以获取的较为复杂的…...