基于CycleGAN的山水风格画迁移
基于CycleGAN的山水风格画迁移
1、简介
1.1 研究背景及意义
绘画是人类重要的一种艺术形式,其中中国的山水画源远流长,具有丰富的美学内涵,沉淀着中国人的情思。游山玩水的大陆文化意识,以山为德、水为性的内在修为意识,咫尺天涯的视错觉意识,一直成为山水画演绎的中轴主线。从山水画中,我们可以集中体味中国画的意境、格调、气韵和色调。
随着互联网行业的发展,社交媒体逐渐兴起,人们经常在抖音、快手、微博等软件发布短视频或图片。发布图片前,人们一般要对视频或图片进行一些美化,最常见的就是添加一些滤镜。随着计算机视觉和硬件技术的发展使得基于机器生成具有较高逼真度的滤镜效果成为了可能。基于深度学习的对抗生成网络(GAN)技术及其扩展,可以让用户自己拍摄的图片带有艺术作品的风格,达到风格迁移的效果。
利用GANs技术设计生成的自主学习模型机,可以在大量的同类别的数据集中寻找到人眼难以发现的规律,并加以学习,生成以分析得到的规律为基础的新图像。对抗生成网络(GAN)由判别器和生成器组成。首先,生成器生成噪声图片,让判别器使用风格图片和噪声进行训练。判别器在训练后具备鉴别图片是否为该风格的功能。然后用训练完成的判别器来对生成器进行图片,直到生成器能够生成所需风格的图片且让判别器无法判别(判别结果分布为1:1)为止。利用生成器和鉴别器进行互相对抗学习,逐步完善。该技术在数据集充裕的情况下,可以对数据进行预测,对人眼难以发现的特征进行提取,对大数据进行整合等功能,有着很大的应用前景。
由GAN扩展而成的CycleGAN模型,特点为有两对判别器和生成器,以及进行内容到图片、图片到内容的双向训练。与过去的GAN模型如pix2pix对比,CycleGAN的优势在于不需要训练数据是成对的形式,从而能够有更广泛的应用。然而,中国画具有独特的绘画风格,通过大量训练集对模型进行训练才能够使得模型学习到相应的绘画风格,从而能够对任意一张环境图像实现中国山水画风格的迁移。除了社交媒体,风格迁移在其他领域也有广阔的应用前景和强烈的需求。导航软件可以用风格迁移的方式将卫星照片转换成地图的形式;在刑侦领域,可以用风格迁移的方式将嫌疑犯的手绘画像转移成有参考价值的照片。除此之外,还有生成字体,高分辨率重建等应用方向。
项目主要研究任务为基于CycleGAN将既有内容图片转换为中国山水画风格,通过CycleGAN强大的特征提取能力,得到不同图像间的特征信息,从而能够学习到中国山水画风格。通过大量的训练数据对CycleGAN网络进行不断的训练,提高CycleGAN画风迁移的准确率。此外,我们还对原始CycleGAN进一步进行了改进,将CycleGAN与自注意力机制相结合,从而提高生成图像的逼真度。
图1-1 山水画风格迁移实例
Figure 1-1 An example of image style transfer
3、CycleGAN算法原理及其改进措施
3.1 图像风格迁移数据集
数据集的质量和数量会影响模型的泛化性和生成图像的质量,为了能够实现不同画家风格的迁移工作,通过爬虫和寻找公开数据集的方式进行数据收集。在我们的任务中,我们将要实现中国山水风格画的迁移工作,因此,我们主要搜寻具有中国山水画风格的图像形成模型训练所需的数据集。数据集从四个不同的美术馆和画廊收集得到。中国风格数据集共2192张,其中362张图片收集自普林斯顿大学美术馆,101张图片收集自哈佛大学美术馆,428张图片收集自大都会艺术博物馆,1301张图片收集自史密森尼弗里尔艺术画廊。不同美术馆和画廊收集到的部分图像示例分别如图3-1(a)到3-1(d)所示。
(a) 哈佛大学美术馆收集图像示例
(b) 普林斯顿大学美术馆收集图像示例
© 大都会艺术博物馆收集图像示例
(d) 史密森尼弗里尔艺术画廊收集图像示例
图3-1 中国画风数据集
Figure 3-1 Example of Chinese style images
3.2 CycleGAN算法原理
为了能够生成新的图像,需要将源域中的图像通过变换转移到目标域。通过跨域转换能够将已有图像生成接近真实的图像。不同于其他图像风格转换算法,CycleGAN是传统GAN的特殊变体,与GAN相比,CycleGAN也可以创建新的数据样本,并且CycleGAN不需要成对的数据对模型进行训练。为了确保学习到的映射不将输入的不同对象x1、x2映射为同一个生成结果y,CycleGAN引入了Cycle概念,即将y映射回A,产生x1,并判断x1
是否同x1近似,用这样的方式来确保模型真正能学习到一对一的映射而不是一对多。CycleGAN包括前向循环和反向训练两部分,如图3-2所示。其中前向循环用来训练生成器,通过仅利用源域中的图像x和目标域中的图像y来进行无监督的学习。不同于其他图像生成算法,CycleGAN对图像生成过程施加了循环一致性约束,循环一致性约束可以确保从伪造的目标数据集中重建出真实的源数据。在CycleGAN模型中,使用平均绝对误差损失作为循环一致性约束,可以减少图像的重建模糊。CycleGAN为对称性结构,具有与前向循环相同的反向循环,但是目标数据和源数据相反,同样生成器和判别器的作用也相反,对于反向循环,判别器作为生成器,而生成器用于恢复输入数据。通过对抗性训练使得生成器可以学习到如何欺骗判别器。CycleGAN的最终目的是让生成器学习到如何能够生成逼真的伪造数据用来欺骗判别器。具体来说,在模型中定义两个变换G、F,分别表示从输入域X到目标域Y的变换和逆变换,并且使用Dx和Dy来分辨判断F和G的效果,在使用Dx和Dy的同时,引入两个Cycle过程,第一个cycle过程(图3-2中b),是指使用真实的x产生一个估计的y,再使用这个估计的y进行逆变换产生一个估计的x,此时评价真实的x和这个估计的x的差别,同样的Y到X的过程也引入这样的Cycle过程(图3-2中c)。
图3-2 CycleGAN模型原理
Figure 3-2 CycleGAN model algorithm
3.3 基于CycleGAN模型的改进算法
针对原始CycleGAN模型对产生较大几何形变情况下生成效果差的问题,通过增加VGG损失和自注意力机制使得在产生较大几何形变情况下也能够生成质量较好的图像。具体操作为增加VGG损失的目的是对特征层生成的特征进行约束,增加自注意力机制的目的是将图像的亮度信息纳入到模型的生成结果中,改进模型框架如图3-3所示。
图3-3 改进CycleGAN模型结构
Figure 3-1 Improved CycleGAN model structure
接下来,将分别对增加VGG损失项和引入自注意力机制的目的进行说明。对于增加VGG损失项,模型使用VGG16网络分别对输入图像和生成图像进行特征提取,通过计算输入图像和生成图像之间的损失来减少输入图像和生成图像之间特征层的变化,保证图像内容的不变,进行保留输入图像的语义信息。
对于增加注意力机制,由于在对原始CycleGAN模型进行测试过程中发现,在不同画家的图像中,由于天空部分颜色相比于图像中的其他部分更亮,并且颜色分布较为分散,因此会产生不同程度的伪影。为了消除生成图像中的伪影,在图像输入生成器之前首先对图像不同部分的光照强度进行评估。由于画家在绘画过程中会将在图像中设置不同的关注区域,具有主次之分,特别是对于轮廓等部分将会 投入更多的笔墨,因此可以通过在轮廓区域增加注意力机制,从而可以生成更加逼真的效果,而对于天空等平面部位,也可以消除生成图像带来的伪影。
4、基于改进CycleGAN的图像风格迁移及软件设计
4.1 实验数据集及实验环境
4.1.1 环境配置
本文利用Anaconda集成平台,基于Python语言进行程序的开发,Python语言是开源语言,生态完善,对于多数深度学习框架都提供了调用接口,用户可以在任何计算机上免费安装和使用相关数据库。此外,Python语言易于学习,语法简单,代码维护简单,拥有丰富的扩展库,可以轻易的完成各种高级任务。
首先需要在Anaconda官网下载Anaconda软件进行安装,并进行环境变量的配置。安装结果如图4-1所示。软件安装完毕后,新建虚拟环境,并进行python 3.8和相关依赖库的安装,相关依赖库包括Pytorch、opencv-python等。
图4-1 软件安装结果
Figure 4-1 Anaconda install
本文开发的实验环境为Windows系统,GPU型号为Nvidia 2080,为了能够充分的对模型进行训练,对于每个图像迁移模型均训练80000个epoch。
4.1.2 实验数据集
利用第三章所示收集的中国山水风格数据集对模型进行训练。将所有数据均分为训练集和验证集,其中训练集和验证集均包括A和B两部分,数据集组织形式如图4-2所示。
图4-2 数据集组织形式
Figure 4-2 The structure of dataset
4.2 界面设计实现及测试
模型训练完成后,为了增加交互性能,我们设计了如图4-3所示的交互界面,交互界面包括图像选择,图像风格转换结果展示,以及待转换的不同图像风格,不同图像风格包括中文水墨风格、中文铅笔画风格。除了可以进行风格的选择以外,还分别增加了改进模型情况下图像的显示方式,包括单独增加特征层约束和同时增加特征层约束和自注意力两种方式。最后,我们还可以通过手动的方式调节亮度的约束,当阈值减小时,此时模型将降低图像较亮区域的注意力。
图4-3 基于CycleGAN的中国画风迁移交互系统
Figure 4-3 Main GUI of image transfer based on CycleGAN
选择图像进行图像风格迁移,图像选择界面如图4-4所示。
图4-4 基于CycleGAN的图像风格迁移系统选择界面
Figure 4-4 Main GUI of image transfer based on CycleGAN
基于选择后的图像进行图像风格迁移的原始图像和可视化结果分别如图4-5和图4-6所示。
图4-5 原始风格图像
Figure 4-5 Original Image
图4-6 图像风格迁移结果
Figure 4-6 Image transfer results
系统可同时显示待进行图像风格迁移的图像和图像风格迁移后的结果图像,此外,界面中还可以显示选择图像的路径以及通过调节阈值控制注意力机制对图像亮度的关注情况,实时进行调整。
4.3 图像风格迁移结果验证
接下来我们将展示不同图像进行图像风格迁移后的结果,图像风格迁移结果如图4-7(a)-4-7©所示。
(a) 水墨画风格结果
(b) 增加特征层约束结果
© 增加特征层约束和自注意力结果结果
图4-7 不同风格生成结果
Figure 4-7 Different transfer images result
最后,采用Intel oneAPI AI组件实现端到端的模型优化,使用的工具为英特尔神经压缩器1.12,采用如下图所示的环境配置。
对模型优化后的模型平均训练时间进行分析可以发现,经过优化后的模型平均训练时间更短。
相关文章:
基于CycleGAN的山水风格画迁移
基于CycleGAN的山水风格画迁移 1、简介 1.1 研究背景及意义 绘画是人类重要的一种艺术形式,其中中国的山水画源远流长,具有丰富的美学内涵,沉淀着中国人的情思。游山玩水的大陆文化意识,以山为德、水为性的内在修为意识&#x…...
@Cacheable 注解
1. 功能说明 Cacheable 注解在方法上,表示该方法的返回结果是可以缓存的。也就是说,该方法的返回结果会放在缓存中,以便于以后使用相同的参数调用该方法时,会返回缓存中的值,而不会实际执行该方法。 注意,这…...
vue3+ts项目打包后的本地访问
注意:打包之后不可直接点击html访问,需要给项目安装本地服务! 1、安装servenpm i -g serve 2、打包项目npm run build 生成dist文件夹 3、本地访问serve dist 运行service dist之后的控制台 可复制下方的地址运行打包后的项目,运行…...
探索程序员需要掌握的算法?
文章目录 一:引言二:常见算法介绍三:重点算法总结 🎉欢迎来到数据结构学习专栏~探索程序员需要掌握的算法? ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客🎈该系列文章…...
性能测试 —— Jmeter定时器
固定定时器 如果你需要让每个线程在请求之前按相同的指定时间停顿,那么可以使用这个定时器;需要注意的是,固定定时器的延时不会计入单个sampler的响应时间,但会计入事务控制器的时间 1、使用固定定时器位置在http请求中…...
mp4视频太大怎么压缩?几种常见压缩方法
mp4视频太大怎么压缩?科技的飞速发展使得视频成为人们生活中不可或缺的一部分。然而,随着视频质量的不断提高,视频文件的大小也与日俱增,给我们的存储和传输带来了巨大的挑战和困扰。特别是MP4格式的视频,由于其出色的…...
论文复制ChatGPT按钮被发表,撤回后再曝多个类似案例;Midjourney 生成大师级的人像
🦉 AI新闻 🚀 论文复制ChatGPT按钮被发表,撤回后再曝多个类似案例 摘要:一篇物理论文复制了ChatGPT按钮内容,经过两个月同行评审并在杂志上发表。这一现象被知名打假人发现后,发表商决定撤回该论文。此外…...
Python自动化测试 史上最全的进阶教程
Python自动化测试就是把以前人为测试转化为机器测试的一种过程。自动化测试是一种比手工测试更快获得故障反馈的方法。 随着时代的变革,也许在未来测试这个职位的需求会越来越少甚至消失,但是每一个组织,每一个客户对软件质量的要求是永远不…...
centos pip失效
在 CentOS 上安装和配置 pip3 可能需要以下步骤: 确保 Python 3 已正确安装:请确保您已经正确地安装了 Python 3。在 CentOS 上,Python 3 可能默认安装在 /usr/bin/python3 路径下。您可以通过运行以下命令来验证 Python 3 是否正确安装&…...
Java——》ThreadLocal
推荐链接: 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…...
如何做好利益相关方的期望管理?
利益相关方对项目而言非常重要,有效管理利益相关方的期望可以帮助项目团队更好地满足利益相关方的需求,助于建立良好的合作伙伴关系,提高项目的可持续性和成功率。 如果项目团队无法满足利益相关方的需求,可能会引发冲突、争议或其…...
【K8S系列】深入解析k8s网络插件—Canal
序言 做一件事并不难,难的是在于坚持。坚持一下也不难,难的是坚持到底。 文章标记颜色说明: 黄色:重要标题红色:用来标记结论绿色:用来标记论点蓝色:用来标记论点 在现代容器化应用程序的世界中…...
从单页面应用角度去解决不跳转页面,也能更改浏览器url地址
正常来说不刷新页面,也能更改浏览器url地址的方法有很多,我们在网上搜的话可以看到有pushState、replaceState、popstate等方法,那还有没有其他方法呢? 答案是有的! 最近做一个vue商城项目的时候,用户点击支…...
Linux:keepalived + ipvsadm
介绍 Linux:keepalived 双热备份(基础备份web)_鲍海超-GNUBHCkalitarro的博客-CSDN博客https://blog.csdn.net/w14768855/article/details/132815057?spm1001.2014.3001.5501 环境 一台 centos7 keepalived ipvsadm (主…...
Linux基础命令(示例代码 + 解释)
查看目录下文件 ls [-a -l -h] [路径] -a(全部) -l(细节) -h(大小) ls ls / ls -a ls -l ls -h ls -alh ls -l -h -a ls -lah /切换目录 cd [路径] change di…...
巨人互动|Google企业户Google“自动采纳建议”应该如何使用
在数字化时代,Google已经成为了人们获取信息的主要渠道之一。而在使用Google搜索时,你可能会发现下拉框中自动提供的搜索建议。这些搜索建议是基于用户搜索行为和相关数据进行推测,旨在使用户更快速地找到所需信息。而Google还提供了一项名为…...
元宇宙全球市场规模到2030年将达9805亿美元!
元宇宙是一种新兴的概念,它指的是一个虚拟的世界,由人工智能、虚拟现实、区块链等技术构建而成。元宇宙的起源可以追溯到上世纪90年代的虚拟世界“第二人生”,但直到近年来,随着技术的不断发展,它才逐渐成为了人们关注…...
《向量数据库指南》——向量数据库内核面临的技术挑战及应对措施
最近一年,以 ChatGPT、LLaMA 为代表的大语言模型的兴起,将向量数据库的发展推向了新的高度。 向量数据库是一种在机器学习和人工智能领域日益流行的新型数据库,它能够帮助支持基于神经网络而不是关键字的新型搜索引擎。向量数据库不同于传统的…...
API对接中需要注意的事项
API对接是一个复杂的过程,需要对接双方准确地理解和遵循一系列步骤。以下是一些在API对接中需要注意的事项,以及每个步骤的详细解释和可能遇到的问题。 一、API定义和规划 明确API需求:在开始对接前,必须明确API的具体需求和使用场…...
linux 6中4T磁盘识别并分区格式化
存储端划分4T的LUN后,主机端操作如下 1、主机识别,本例中hba卡的端口是host11和host12 [rootdb1 ~]# echo "- - -" > /sys/class/scsi_host/host11/scan [rootdb1 ~]# echo "- - -" > /sys/class/scsi_host/host12/scan …...
WebServer 解析HTTP 响应报文
一、基础API部分,介绍stat、mmap、iovec、writev、va_list 1.1 stat 作用:获取文件信息 #include <sys/types.h> #include <sys/stat.h> #include <unistd.h>// 获取文件属性,存储在statbuf中 int stat(const char *…...
开利网络参与“大湾区独角兽创投大赛”进行蚓链数字生态项目路演
9月10日,广州市开利网络科技有限公司受邀参与位于广州国际医药港的“大湾区独角兽创投大赛”,进行“蚓链——企业数字化生态”项目的初赛路演。“大湾区独角兽创投大赛”是由中国企业新闻观察网指导,由中国商协会服务工作委员会、广东蚁米孵化…...
前端的8种跨域解决方案
在前端开发中,常见的跨域解决方案有以下8种: JSONP(JSON with Padding):利用<script>标签的跨域特性,通过动态创建<script>标签,请求一个带有回调函数的接口,服务器返回…...
Linux知识点 -- 网络编程套接字
Linux知识点 – 网络编程套接字 文章目录 Linux知识点 -- 网络编程套接字一、预备知识1.认识端口号2.套接字3.TCP协议与UDP协议4.网络字节序 二、socket编程接口1.socket常见API2.sockaddr结构 三、UDP套接字编程1.直接打印客户端信息2.执行客户端发来的指令3.多用户聊天4.在wi…...
逆向大漠插件/用VB6.0实现后台鼠标移动和后台鼠标左键点击
自动化设计软件,在一款做门的设计软件CypCut6.3 上实现了自动化勾选了 复选框。一切都是基于后台的。 Private Const GW_CHILD 5 Private Const GW_HWNDFIRST 0 Private Const GW_HWNDNEXT 2 Public Declare Function FindWindow Lib "user32" Alias &…...
重庆OV证书和EV证书有什么区别
SSL数字证书按照保护的域名数量和类型可以分为单域名SSL证书、多域名SSL证书和通配符SSL证书三种,按照验证方式可以将SSL数字证书分为DV基础型SSL证书、OV企业型SSL证书和EV增强型SSL证书三种。今天就随SSL盾小编了解OV证书和EV证书的区别。 1.OV企业型SSL证书由CA…...
uni-app(微信小程序)图片旋转放缩,文字绘制、海报绘制
总结一下: 要进行海报绘制离不开canvas,我们是先进行图片,文字的拖拽、旋转等操作 最后再对canvas进行绘制,完成海报绘制。 背景区域设置为 position: relative,方便图片在当前区域中拖动等处理。添加图片࿰…...
Spring Boot 2.x基础教程
Spring Boot 2.x基础教程 一、简介1. Spring Boot 2.x 简介2. Spring Boot 2.x 特点3. Spring Boot 2.x 与 Spring Framework 的关系 二、Spring Boot 2.x 环境搭建1. JDK环境安装与配置2. Maven环境安装与配置3. Spring Boot 2.x 项目创建 三、核心功能1. 配置文件及其加载顺序…...
汽车红外夜视系统行业发展总体概况
汽车红外夜视系统是一种技术,旨在帮助驾驶员在夜间或低光条件下提供更好的视觉能力。它利用红外光谱的特性来检测和显示在正常光线下难以察觉的热能辐射。这使驾驶员能够在夜间或恶劣天气条件下更好地识别和辨别道路上的物体、行人、动物或其他车辆。 汽车红外夜视…...
Java 和 PHP GC 的差异和差异出现的原因
JAVA 的 GC 处理 判断草死掉的两种方式:引用计数和可达性分析 可达性分析对 JAVA 比较好用的原因是 JAVA遵守这面向对象的严格要求,每个变量都被对象包裹,所以每个变量都能通过对象来进行遍历找到,最终判断他们的是否被引用&…...
化妆品商城网站建设策划方案/网上推广方式
Beamit是一家专注于美国及发展中市场资金转移的移动支付创业公司,由TechStars所孵化,曾入选“西雅图十大最具潜质初创公司”。在之前的天使融资中获得75万美元投资,近日宣布获得新一轮240万美元的融资,由Founder’s Co-op领投&…...
网站已备案添加新域名/吉林seo推广
操作系统:windows 2008 R2 SP1 vCenter版本:5.0 数据库版本:SQL 2008 R2 企业版 在安装完数据库,继续安装VC时,会提示80端口被占用,这是由于SQL 2008的"SQL Server Reporting Services"服务造成的…...
做网站内容需要自己填的/十大经典案例
传说中,原始社会晚期中原一带姬姓部落的首领叫黄帝,号轩辕氏。一号有熊氏,相传他率领姬姓部落,先后在阪泉(今河北涿鹿东南)、涿鹿打败炎帝和蚩尤部落,成为中原一带各部落拥戴的首领。各部落结成…...
在线书店网站怎么做/爱站网长尾关键词挖掘工具福利片
题意:传送门 题解:三种操作:一是区间加,使用lazy操作即可完成,而是平均数,使用区间加维护,三是区间方差,将公式展开,发现s21n∗(∑ixiyai2−2∗a‾∗∑ixiyai(y−x1)∗a‾…...
网站建站主机/淘宝运营培训班哪里有
1.简介 jstat是一个很强大的JVM内存监视工具。它能对Java应用程序的资源和性能进行实时的命令行的监控,主要包括堆大小和GC情况的监控。 2.命令格式 jstat -<option> [-t] [-h<lines>] <vmid> [<interval> [<count>]] jstat -命令选项 -输出…...
外贸电子商务网站建设/推广是什么意思
1.与或有事项相关的“可能”是指()。 A.发生的可能性大于95%但小于100% B.发生的可能性大于30%但小于或等于50% C.发生的可能性大于50%但小于或等于95% D.发生的可能性大于5&#x…...