当前位置: 首页 > news >正文

论文阅读:基于MCMC的能量模型最大似然学习剖析

On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models
相关代码:点击

本文只介绍关于MCMC训练的部分,由此可知,MCMC常常被用于训练EBM。最后一张图源于Implicit Generation and Modeling with Energy-Based Models

本研究调查了马尔可夫链蒙特卡罗 (MCMC) 采样在无监督最大似然 (ML) 学习中的效果。 我们的注意力仅限于非归一化概率密度族,其中负对数密度(或能量函数)是 ConvNet。 我们发现,之前研究中用于稳定训练的许多技术都是不必要的。 具有 ConvNet 潜力的 ML 学习只需要几个超参数,并且不需要正则化。 使用这个最小框架,我们确定了仅取决于 MCMC 采样实施的各种 ML 学习成果。

一方面,我们表明训练基于能量的模型很容易,该模型可以使用短期 Langevin 对真实图像进行采样。 即使 MCMC 样本在整个训练过程中比真正的稳态样本具有更高的能量,ML 也可以是有效且稳定的。 基于这一见解,我们引入了一种 ML 方法,该方法具有纯噪声初始化的 MCMC、高质量短期合成,以及与具有信息性 MCMC 初始化(例如 CD 或 PCD)的 ML 相同的预算。 与以前的模型不同,我们的能量模型可以在训练后从噪声信号中获得真实的高多样性样本。

另一方面,使用非收敛 MCMC 学习的 ConvNet 势不具有有效的稳态,并且不能被视为近似训练数据的非标准化密度,因为长期运行的 MCMC 样本与观察到的图像有很大差异。 我们表明,训练 ConvNet 学习真实图像稳态的潜力要困难得多。 据我们所知,所有先前模型的长期 MCMC 样本都失去了短期样本的真实性。 通过正确调整 Langevin 噪声,我们训练了第一个 ConvNet 电位,其中长期和稳态 MCMC 样本是真实图像。

1 Introduction

1.1 诊断基于能量的模型

高维信号的统计建模是许多学科和实际应用中遇到的一项具有挑战性的任务。 我们在这项工作中研究图像信号。 当图像没有注释或标签时,深度监督学习的有效工具就无法应用,而必须使用无监督技术。 这项工作重点关注具有 ConvNet 势函数 (2) 的基于能量的模型 (1) 的无监督范式。

之前研究ConvNet势的最大似然(ML)训练的工作,例如(Xie et al. 2016;2018a;Gao et al. 2018),在学习过程中使用Langevin MCMC样本来近似未知且棘手的对数划分函数的梯度。 作者普遍发现,经过足够的模型更新后,短期 Langevin 从信息初始化(参见第 2.3 节)生成的 MCMC 样本是与数据相似的真实图像。
在这里插入图片描述

图 2:Oxford Flowers 102 数据集从数据样本到亚稳态样本的长期 MH 调整 Langevin 路径。 使用算法 1 的两种变体来训练模型:使用来自噪声初始化的 L = 100 L = 100 L=100 MCMC 步骤训练的非收敛 ML(顶部),以及使用来自持久初始化的 L = 500 L = 500 L=500 MCMC 步骤训练的收敛 ML(底部)。

然而,我们发现,无论 MCMC 初始化、网络结构和辅助训练参数如何,先前工作学习的能量函数都存在重大缺陷。先前所有实现的能量函数的长期和稳态 MCMC 样本都是过饱和图像,具有显着的过饱和图像。 能量低于观测到的数据(见图 2 顶部和图 3)。 在这种情况下,将学习模型描述为训练集的近似密度是不合适的,因为该模型将不成比例的高概率质量分配给与观察数据显着不同的图像。 高质量短期样本和低质量长期样本之间的系统差异是一个关键现象,但在之前的研究中似乎没有被注意到。
在这里插入图片描述
图 3:近期基于能量的模型的长期 Langevin 样本。 概率质量集中在具有不真实外观的图像上。 从左到右:牛津花上的 Wasserstein-GAN 评论家(Arjovsky、Chintala 和 Bottou,2017 年)、牛津花上的 WINN(Lee 等人,2018 年)、ImageNet 上的条件 EBM(Du 和 Mordatch,2019 年)。 W-GAN 批评者并未接受非标准化密度训练,但我们提供了样本以供参考。

1.2 Our Contributions

在这项工作中,我们提出了对通过基于 MCMC 的 ML 学习 ConvNet 潜力的基本理解。 我们诊断学习过程中出现的以前未识别的并发症,并提炼我们的见解来训练具有新功能的模型。 我们的主要贡献是:

  • 识别两个不同的轴,它们表征基于MCMC的ML学习中的每个参数更新:1)正负样本的能量差异,以及2)MCMC收敛或不收敛。 与普遍预期相反,高质量合成不需要收敛。 参见图 1 和第 3 节。
  • 第一个 ConvNet 势是使用 ML 和纯噪声初始化 MCMC 进行训练的。 与之前的模型不同,我们的模型在仅根据噪声进行训练后可以有效地生成真实且多样化的样本。 参见图 7。我们的配套工作(Nijkamp 等人,2019)进一步探讨了这种方法。
  • 第一个具有真实稳态样本的 ConvNet 潜力。 据我们所知,所有以前的训练实现都无法获得在图像空间中具有真实 MCMC 采样的 ConvNet 潜力。 我们参考(Kumar et al. 2019)进行讨论。 请参见图 2(底部)和图 8(中栏和右栏)。
  • 利用磁化能量景观中的扩散来映射图像空间能量函数的宏观结构,以进行无监督的簇发现。 见图9

1.3 Related Work

基于能量的图像模型 基于能量的模型定义状态空间上的非归一化概率密度,以表示给定系统中的状态分布。 Hopfield 网络(Hopfield 1982)将 Ising 能量模型改编为能够表示任意观测数据的模型。 RBM(受限玻尔兹曼机)(Hinton 2012)和 FRAME(滤波器、随机场和最大熵)(Zhu、Wu 和 Mumford 1998;Wu、Zhu 和 Liu 2000)模型引入了具有更大表征能力的能量函数。 RBM 使用与可观察图像像素具有联合密度的隐藏单元。 FRAME模型使用卷积滤波器和直方图匹配来学习数据特征。

开创性的工作(Hinton 等人,2006)研究了基于能量的分层模型。 (Ngiam 等人,2011)是一项重要的早期工作,提出了前馈神经网络来模拟能量函数。 (2) 形式的基于能量的模型在 (Dai, Lu, and Wu 2015) 中介绍。 FRAME 模型的深度变体(Xie 等人,2016 年;Lu、Zhu 和 Wu,2016 年)是第一个通过 ConvNet 势和 Langevin 采样实现真实合成的模型。 (Du and Mordatch 2019) 中应用了类似的方法。多网格模型(Gao et al. 2018)学习不同尺度图像的 ConvNet 势的集合。 (Kim and Bengio 2016; Dai et al. 2017; Xie et al. 2018b; 2018a; Han et al. 2019; Kumar et al. 2019) 中探讨了使用生成器网络作为近似直接采样器来学习 ConvNet 势。 这些作品(Jin、Lazarow 和 Tu 2017;Lazarow、Jin 和 Tu 2017;Lee 等人 2018)在判别框架中学习 ConvNet 潜力。

尽管其中许多工作声称将能量 (2) 训练为观察图像的近似非标准化密度,但生成的能量函数不具有反映数据的稳态(见图 3)。 来自信息初始化的短期 Langevin 样本呈现为近似稳态样本,但进一步的研究表明长期 Langevin 始终破坏短期图像的真实性。 我们的工作首先是解决和纠正所有先前实现的系统性不收敛问题。

2. Learning Energy-Based Models

在本节中,我们回顾了先前作品中基于 MCMC 的 ML 学习的既定原则(Hinton 2002;Zhu、Wu 和 Mumford 1998;Xie 等人 2016)。

2.1 Maximum Likelihood Estimation

基于能量的模型是吉布斯-玻尔兹曼密度在这里插入图片描述

在信号 x ∈ X ⊂ R N x ∈ X ⊂ R^N xXRN 上。 势能 U ( x ; θ ) U(x; θ) U(x;θ) 属于参数族 u = { U ( ⋅ ; θ ) : θ ∈ θ } u = \{U(· ; θ) : θ ∈ θ\} u={U(⋅;θ):θθ}。 棘手的常数 Z ( θ ) Z(\theta) Z(θ) 从未被明确使用,因为势 U ( x ; θ ) U(x; θ) U(x;θ) 为 MCMC 采样提供了足够的信息。 在本文中,我们将注意力集中在形式为的能量势上
在这里插入图片描述
其中 F ( x ; θ ) F(x; θ) F(x;θ) 是具有单个输出通道和权重 θ ∈ R D θ ∈ R^D θRD 的卷积神经网络.
在机器学习中,我们寻求找到 θ ∈ Θ θ ∈ \Theta θΘ,使得参数模型 p θ ( x ) p_θ(x) pθ(x) 非常接近数据分布 q ( x ) q(x) q(x)。 衡量接近程度的一种方法是 KullbackLeibler (KL) 散度。 学习通过解决问题来进行
在这里插入图片描述
我们可以通过求导数的根来最小化 L ( θ ) L(θ) L(θ)
在这里插入图片描述
其中 { X i + } i = 1 n \{X^+_i \} ^n_{i=1} {Xi+}i=1n i . i . d . i.i.d. i.i.d. 来自数据分布 q q q 的样本(称为正样本,因为概率增加),并且 { X i − } i = 1 m \{X^−_i \} ^m_{i=1} {Xi}i=1m i . i . d i.i.d i.i.d 来自当前学习分布 p θ p_θ pθ 的样本(称为负样本,因为概率降低了)。 实际上,正样本 { X i + } i = 1 n \{X^+_i \} ^n_{i=1} {Xi+}i=1n是一批训练图像,负样本 { X i − } i = 1 m \{X^−_i \} ^m_{i=1} {Xi}i=1m 是经过 L L L 次MCMC采样迭代后得到的。
在这里插入图片描述

相关文章:

论文阅读:基于MCMC的能量模型最大似然学习剖析

On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models 相关代码:点击 本文只介绍关于MCMC训练的部分,由此可知,MCMC常常被用于训练EBM。最后一张图源于Implicit Generation and Modeling with Energy-Based Mod…...

【Verilog】期末复习——设计一个带异步复位端且高电平有效的32分频电路

系列文章 数值(整数,实数,字符串)与数据类型(wire、reg、mem、parameter) 运算符 数据流建模 行为级建模 结构化建模 组合电路的设计和时序电路的设计 有限状态机的定义和分类 期末复习——数字逻辑电路分…...

基于springboot的java读取文档内容(超简单)

读取一个word文档里面的内容,并取出来。 代码: SneakyThrowsGetMapping(value "/readWordDoc")ApiOperationSupport(order 1)ApiOperation(value "文档读取 ", notes "文档读取 ")public R ReadWordDoc () {System.o…...

K8S亲和性,反亲和性,及污点

nodeName:硬匹配,不走调度策略 nodeSelector:根据节点的标签选择,会走调度的算法 只要是走调度算法,在不满足预算策略的情况下,所有pod都是pending node节点的亲和性: 硬策略:必…...

2024年,AI、Web3、区块链、元宇宙:有没有“相互成就“的可能性?

加密圈最近有点冷清,曾经是科技界的宠儿,去年中旬开始一直在被SEC的诉讼困扰着,而且正处冷清的熊市,被迫居于 AI 后面的次要地位。 曾在 Web3 领域活跃并具有影响力的企业家 Jeremiah Owyang 住在旧金山,目前也深入研…...

Mac电脑好用的修图软件:Affinity Photo 2中文 for Mac

Affinity Photo 2提供了广泛的图像编辑和调整工具,使用户能够对照片进行精确的编辑和改进。它支持图像裁剪、旋转、缩放、变形等操作,以及曝光、色彩、对比度、饱和度等调整。 非破坏性编辑:软件采用非破坏性编辑方式,即对原始图…...

数据结构之Radix和Trie

数据结构可视化演示链接,也就是视频中的网址 Radix树:压缩后的Trie树 Radix叫做基数树(压缩树),就是有相同前缀的字符串,其前缀可以作为一个公共的父节点。同时在具体存储上,Radix树的处理是以…...

ctrl+c与kill -2的区别

单进程场景 在单进程的情况下,ctrlc和kill -2是一模一样的,都是向指定的进程发送SIGINT信号. 如果进程中注册了捕捉SIGINT信号的处理函数,那么这个信号会被进程处理,例如: void processB() {// Set signal handler …...

每日算法打卡:分巧克力 day 9

文章目录 原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 原题链接 1227. 分巧克力 题目难度:简单 题目来源:第八届蓝桥杯省赛C A/B组,第八届蓝桥杯省赛Java A/B/C组 题目描述 儿童节那天有 …...

Golang switch 语句

简介 switch 语句提供了一种简洁的方式来执行多路分支选择 基本使用 基本语法如下: switch expression { case value1:// 当 expression 的值等于 value1 时执行 case value2:// 当 expression 的值等于 value2 switch 的每个分支自动提供了隐式的 break&#x…...

可碧教你C++——位图

本章节是哈希的延申 可碧教你C——哈希http://t.csdnimg.cn/3R8TU 一文详解C——哈希 位图 位图是基于哈希表的原理产生的一种新的container——bitset 基于哈希映射的原理,我们在查找的时候,可以直接去定址到元素的具体位置,然后直接访问该…...

2024年虚拟DOM技术将何去何从?

从诞生之初谈起,从命令式到声明式,Web开发的演变之路 Web开发的起源与jQuery的统治 在Web开发的早期阶段,操作DOM元素主要依赖命令式编程。当时,jQuery因其易用性而广受欢迎。使用jQuery,开发者通过具体的命令操作DOM&…...

基于51单片机的恒温淋浴器控制电路设计

标题:基于51单片机的智能恒温淋浴器控制系统设计与实现 摘要: 本论文主要探讨了一种基于STC89C51单片机为核心控制器的恒温淋浴器控制系统的详细设计与实现。系统通过集成温度传感器实时监测水温,结合PID算法精确控制加热元件工作状态&#…...

【redis】redis的bind配置

在配置文件redis.conf中,默认的bind 接口是127.0.0.1,也就是本地回环地址。这样的话,访问redis服务只能通过本机的客户端连接,而无法通过远程连接, 这样可以避免将redis服务暴露于危险的网络环境中,防止一些…...

C++ 继承

目录 一、继承的概念及定义 1、继承的概念 2、继承定义 二、基类和派生类对象赋值转换 三、继承中的作用域 四、派生类的默认成员函数 五、继承与友元 六、继承与静态成员 七、复杂的菱形继承及菱形虚拟继承 1、菱形继承 2、虚拟继承 3、例题 八、继承的总结和反思…...

了解ASP.NET Core 中的文件提供程序

写在前面 ASP.NET Core 通过文件提供程序来抽象化文件系统访问。分为物理文件提供程序(PhysicalFileProvider)和清单嵌入的文件提供程序(ManifestEmbeddedFileProvider)还有复合文件提供程序(CompositeFileProvider );其中PhysicalFileProvider 提供对物理文件系统…...

竞赛保研 基于深度学习的人脸性别年龄识别 - 图像识别 opencv

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计…...

JavaScript音视频,JavaScript简单获取电脑摄像头画面并播放

前言 本章实现JavaScript简单获取电脑摄像头画面并播放的功能 兼容性(不支持Node.js) 需要注意的是,由于涉及到用户的隐私和安全,获取用户媒体设备需要用户的明确同意,并且可能需要在用户的浏览器中启用相关的权限。在某些浏览器中,可能需要用户手动开启摄像头权限。 …...

《JVM由浅入深学习【五】 2024-01-08》JVM由简入深学习提升分享

目录 JVM何时会发生堆内存溢出?1. 堆内存溢出的定义2. 内存泄漏的原因3. 堆内存溢出的常见场景4. JVM参数调优5. 实际案例分析 JVM如何判断对象可以回收1.可达性分析的基本思路2.实际案例3.可以被回收的对象4.拓展, 谈谈 Java 中不同的引用类型? 结语感…...

FastDFS之快速入门、上手

知识概念 分布式文件系统 通过计算机网络将各个物理存储资源连接起来。通过分布式文件系统,将网络上任意资源以逻辑上的树形结构展现,让用户访问网络上的共享文件更见简便。 文件存储的变迁: 直连存储:直接连接与存储&#xf…...

Vue 中的 ref 与 reactive:让你的应用更具响应性(中)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…...

【数据库基础】Mysql与Redis的区别

看到一篇不错的关于“Mysql与Redis的区别”的文章,转过来记录下~ 文章目录 一、数据库类型二、运行机制三、什么是缓存数据库呢?四、优缺点比较五、区别总结六、数据可以全部直接用Redis储存吗?参考资料 一、数据库类型 Redis:NOS…...

JVM工作原理与实战(六):类的生命周期-连接阶段

专栏导航 JVM工作原理与实战 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、类的生命周期 1.加载(Loading) 2.连接(Linking) 3.初始化(Initialization) 4.使用(Using&…...

【OCR】 - Tesseract OCR在Windows系统中安装

Tesseract OCR 在Windows环境下安装Tesseract OCR(Optical Character Recognition)通常包括以下几个步骤: 下载Tesseract 访问Tesseract的GitHub发布页面:https://github.com/tesseract-ocr/tesseract/releases找到适合你操作系…...

YOLOv8改进 | 损失函数篇 | SlideLoss、FocalLoss分类损失函数助力细节涨点(全网最全)

一、本文介绍 本文给大家带来的是分类损失 SlideLoss、VFLoss、FocalLoss损失函数,我们之前看那的那些IoU都是边界框回归损失,和本文的修改内容并不冲突,所以大家可以知道损失函数分为两种一种是分类损失另一种是边界框回归损失,上一篇文章里面我们总结了过去百分之九十的…...

计算机网络试题——填空题(附答案)

在OSI模型中,第一层是____________层。 答案:物理(Physical) TCP协议是一种_____________连接的协议。 答案:面向连接(Connection-oriented) IPv6地址的位数是____________。 答案:1…...

第二证券:股票私募仓位指数创近八周新高

1月8日,A股几大首要指数全线收跌,上证指数收于日内最低点2887.54点,间隔上一年5月份的阶段高点3418.95点现已跌去了15.54%。 不过,虽然商场仍未清晰止跌,私募基金们却现已进场“抄底”。私募排排网最新发布的私募仓位…...

35-javascript基础,引入方式;变量命名规范

html分为三部分;结构html,表现css,行为js;js就是javascript js包含三部分: ECMAScript:简称ES,ES5,ES6核心语法 DOM:获取和操作html元素的标准方法;BOM&am…...

笔试案例2

文章目录 1、笔试案例22、思维导图 1、笔试案例2 09)查询学过「张三」老师授课的同学的信息 selects.*,c.cname,t.tname,sc.score from t_mysql_teacher t, t_mysql_course c, t_mysql_student s, t_mysql_score sc where t.tidc.cid and c.cidsc.cid and sc.sids…...

【嵌入式-网络编程】vmware中使用UDP广播失败问题

问题描述: 自己在vmware中搭建了2台虚拟机,虚拟机A向虚拟机A和虚拟机B发送广播信息,接收端在虚拟机A和虚拟机B,这个时候,由于没配置sin.sin_addr.s_addr htonl(INADDR_ANY);,而是配置的inet_pton(AF_INET,…...

网站导航建设注意事项/seo短视频入口

京东云上提供了足够多的人工智能api,并且都使用了http的方式进行了封装,用户可以方便在自己的系统中接入京东云的ai能力。今天就是介绍一下如何编写很少的代码就能使用京东云的语音合成api在网页中实现文字朗读,最终实现效果,延迟…...

免费博客网站/如何增加网站权重

FreeRTOS软件定时器1 简述2 使用定时器2.1 配置定时器服务任务2.2 创建 启动 停止定时器2.3 修改定时器2.4 获取定时器状态2.5 定时器实现2.6 数据结构2.7 定时器控制块2.8 定时器管理链表2.9 命令队列2.10定时器服务任务2.11 回调定时器2.12 处理节拍计数器溢出2.13 命令处理3…...

设计网站建设/seodao cn

张越和克里斯刚消失在众人的视线,山口智子立即挺着硕大的胸部去魅惑队长——威斯克了,她的魅惑技能可是A啊。 剩下的新人都聚在了一起,慕容红俨然成了张越之下的二号人物,她看了看三个剧情人物,说道:“张越…...

中山如何建设网站/免费可用的网站源码

对于初学ASP.NET 的人来说&#xff0c;GridView的使用是必不可少的&#xff0c;其中&#xff0c;分页功能也是使用的相当频繁&#xff0c;不过&#xff0c;当你看到这里的时候&#xff0c;这个问题对你来说&#xff0c;已经解决了。下面就是实现分页的详细代码&#xff1a;<…...

重庆网上商城网站建设公司/seo网站推广优化就找微源优化

随着5G手机入网许可的陆续发放&#xff0c;第一批5G手机已经开始上市发售。在价格方面&#xff0c;5G手机并未像此前预测的超过万元。vivo通信研究院总经理秦飞在接受媒体采访时透露&#xff0c;首款5G手机将在8月份上市&#xff0c;价格亲民&#xff0c;或将亏本售卖。中国移动…...

公司网站怎么设计/合肥百度关键词优化

1、I/O多路复用指&#xff1a;通过一种机制&#xff0c;可以监视多个描述符&#xff0c;一旦某个描述符就绪&#xff08;一般是读就绪或者写就绪&#xff09;&#xff0c;能够通知程序进行相应的读写操作。 2、I/O多路复用避免阻塞在io上&#xff0c;原本为多进程或多线程来接收…...