【AI知识】两类最主流AI应用(文生图、ChatGPT)中的目标函数
之前写过一篇 【AI知识】了解两类最主流AI任务中的目标函数,介绍了AI最常见的两类任务【分类、回归】的基础损失函数【交叉熵、均方差】,以初步了解AI的训练目标。
本篇更进一步,聊一聊流行的“文生图”、“聊天机器人ChatGPT”模型中的目标函数。
0、提纲
- 如何衡量“文生图”效果?
- ChatGPT如何奖励好的回答?
- 小结与番外
1、如何衡量“文生图”效果?
“文生图”工具大家肯定很熟悉了,仅凭一段文字就能收获一些不错的图片,实乃辅助创意工作的利器。
类似Midjourney、DALL-E、Stable Diffusion、FLUX.1等优秀的“文生图”应用,在训练中势必要重点关注“如何衡量推测分布(生成的图像)与实际分布(原始的图像)的差距”。
“文生图”的大概过程
“文生图”算法大多基于扩散模型(Diffusion Model),以主流开源的Stable Diffusion为例,架构如下:
扩散模型的大体过程分为"训练 + 采样"两个阶段:
1、训练阶段(前向加噪):不断给原始样本图片加入高斯噪声,再训练“UNetModel模型”来预估噪声。
2、采样阶段(逆向去噪):也就是我们输入文本提示词产出图像的阶段。过程中需要使用训练好的“UNetModel模型”不断迭代去噪,所有使用过程中往往需要等待好几秒。
另外,提示词文本(Prompt)会经CLIP类的多模态模型,在两个阶段均喂给“UNetModel模型”以理解文本上下文意图。
此处不关注其它复杂的细节,单看如何评估生成数据与真实数据之间的差异,这里会引入【KL散度】。
- KL散度(Kullback-Leibler Divergence),也叫相对熵,表示使用预测分布Q(X) 来近似真实分布 P(X) 时所需的额外信息量(也就是预测结果相比于真实情况的信息丢失量)。
- 如果相对熵的值较大,说明预测分布与真实分布之间的差异较大,使用预测分布编码真实数据时会产生更多的信息损失;反之,如果相对熵接近于零,则表示两个分布非常相似。
在扩散模型中,【损失函数 = 重构损失 + KL散度】。
- 此处的重构损失正是之前介绍的“MSE均方误差”,用于评估生成结果与真实样本之间的相似性;
- 而KL散度则作为正则化项,鼓励模型学习到的分布接近先验真实分布。
熵、交叉熵、相对熵(KL散度)
熵、交叉熵和相对熵是信息论中的重要概念。简单理解一下:
- 熵:衡量随机变量的不确定性,熵越大表示系统的不确定性越高(越混乱)。
- 交叉熵:衡量在真实分布下使用推测分布所需的平均编码长度,反映模型预测与真实分布之间的差异。
- 相对熵(KL散度):衡量一个分布相对于另一个分布的信息损失,越小表示两个分布越接近。
一个具体的例子(掷六面骰子):
2、ChatGPT如何奖励好的回答?
ChatGPT的来历
OpenAI于2022年11月30日推出聊天机器人ChatGPT推动了当下这一波AI浪潮。
- 其实早在2018年6月第一代GPT(Generative Pre-trained Transformer)就问世了,其核心理念是无监督地学习大量文本(约40G,网页、维基百科、书籍等来源),用Transformer-Decoder来完成“词语接龙”。在【AI实践】个人免费数学老师系列之(二):自动切题【目标检测】中介绍了Transformer的架构,感兴趣的朋友可以看看。
- GPT1的效果一般,不如Google同时期推出的基于Transformer的BERT(完成类似“完形填空”)。但GPT类似“词语接龙”的方式,天然适合AIGC生成式的任务。
- 而GPT2、3探究了NLP中全新的“预训练、提示、预测”的通用任务处理范式,让模型具备根据用户提示词(Prompt)直接完成各种各样任务的通用能力(开启通往AGI之路)。而以往,一般都需要根据具体任务在预训练模型基础上进行微调(fine-tune)。
- GPT3.5(含InstructGPT、公开发表过论文)开始引入“基于人类反馈的指令学习”,其思路如下:
结合上面两张图,InstructGPT的训练分为三个阶段:
1、利用人工编写的问答数据(约13k、“问题-答案”对)去对GPT3进行有监督训练出SFT模型(Supervised fine-tuning,监督微调)。【为了对齐人类的直觉,重走监督微调的老路】
2、基于人类偏好排序的数据(约33k、针对具体问题的4-9个候选答案进行人工排序)训练一个奖励模型Reword Model 。【将直接打分转化为排序、消除一定的主观差异 】
3、最终在最大化奖励的目标下通过PPO算法来优化策略。【用强化学习模型,模仿人工进行更多结果的优劣排序,进一步优化结果】
- ChatGPT正是延续GPT3.5的路线继续发展壮大而生,而GPT4则进一步扩展了多模态的能力(能理解图片了)。【AI实践】个人免费数学老师系列之(三):题目识别【OCR2.0】中介绍了多模态的破圈之作CLIP模型。
奖励模型中的目标函数
喂给SFT模型一个问题文本,得到4个回答(A、B、C、D),人类标注员进行排序(D>C>A>B)。问题来了:怎么让奖励模型吸收这个排序偏好信息呢?
可以将4个语句两两组合成6个比较对(比如D>A),分别计算loss再相加取均值,这就是“成对排序损失(Pairwise Ranking Loss)”,公式如下:
其中,K为待排序的回答数(比如4);x为问题文本;回答y_w比回答y_l更优(两个y为一对,pairwise);r_θ(x,y)为给奖励模型输入问答对(x、y)之后输出的标量得分;Logistic函数呈S形指数增长;而σ函数也为单调递增的sigmoid 函数,σ(r_θ(x,y_w)−r_θ(x,y_l))越接近 1,表示y_w比y_l排序高。
综上,训练奖励模型正是为了最大化r_θ(x,y_w)−r_θ(x,y_l)【从而印证回答y_w比回答y_l更优】,即最小化上述损失函数loss(θ)。
3、小结与番外
本篇通俗讲述“文生图”、聊天机器人背后的大致原理,重点阐述衡量生成结果与真实情况之间分布差异的KL散度(相对熵)、评估排序信息的成对排序损失(Pairwise Ranking Loss)两种任务类型的目标函数。
番外
最近在细读尤瓦尔·赫拉利的《人类简史:从动物到上帝》,有个观点角度够新颖:
现代科学与先前的知识体系有三大不同之处:
1、愿意承认自己的无知。我们承认了自己并非无所不知。更重要的是,我们也愿意在知识进展之后,承认过去相信的可能是错的。于是,再也没有什么概念、想法或者理论是神圣不可挑战的。
2、以观察和数学为中心。承认无知之后,现代科学还希望能获得新知。方式则是通过收集各种观察值,再用数学工具整理连接,形成全面的理论。
3、取得新能力。光是创造理论,对现代科学来说还不够。它希望能够运用这些理论来取得新的能力,特别是发展出新的科技。
相关文章:
【AI知识】两类最主流AI应用(文生图、ChatGPT)中的目标函数
之前写过一篇 【AI知识】了解两类最主流AI任务中的目标函数,介绍了AI最常见的两类任务【分类、回归】的基础损失函数【交叉熵、均方差】,以初步了解AI的训练目标。 本篇更进一步,聊一聊流行的“文生图”、“聊天机器人ChatGPT”模型中的目标函…...
【单片机基础】定时器/计数器的工作原理
单片机中的定时器/计数器(Timer/Counter)是用于时间测量和事件计数的重要模块。它们可以用来生成精确的延时、测量外部信号的频率或周期、捕获外部事件的时间戳等。理解定时器/计数器的工作原理对于单片机编程和系统设计非常重要。以下是定时器/计数器的…...
ModuleNotFoundError: No module named ‘distutils.msvccompiler‘ 报错的解决
报错 在conda 环境安装 numpy 时,出现报错 ModuleNotFoundError: No module named distutils.msvccompiler 解决 Python 版本过高导致的,降低版本到 Python 3.8 conda install python3.8即可解决。...
HCIA笔记2--ARP+ICMP+VRP基础
1. ARP ARP: 地址解析协议(address resolve protocol)。 网络数据包在通信的时候一般是使用 I P IP IP地址进行通信。 但是在封装数据链路层的时候是需要目标 m a c mac mac地址的。 而 A R P ARP ARP协议实现的功能就是根据 I P IP IP地址来获得 m a c mac mac地址。 1.1 a…...
SpringBoot与MongoDB深度整合及应用案例
SpringBoot与MongoDB深度整合及应用案例 在当今快速发展的软件开发领域,NoSQL数据库因其灵活性和可扩展性而变得越来越流行。MongoDB,作为一款领先的NoSQL数据库,以其文档导向的存储模型和强大的查询能力脱颖而出。本文将为您提供一个全方位…...
Redis模拟延时队列 实现日程提醒
使用Redis模拟延时队列 实际上通过MQ实现延时队列更加方便,只是在实际业务中种种原因导致最终选择使用redis作为该业务实现的中间件,顺便记录一下。 该业务是用于日程短信提醒,用户添加日程后,就会被放入redis队列中等待被执行发…...
vue项目中富文本编辑器的实现
文章目录 vue前端实现富文本编辑器的功能需要用到第三方库1. 安装包2.全局引入注册3.组件内使用4.图片缩放功能实现①安装包②注册并添加配置项③报错解决 vue前端实现富文本编辑器的功能需要用到第三方库 vue2使用vue-quill-editor,vue3使用vueup/vue-quill&#…...
nginx 配置lua执行shell脚本
1.需要nginx安装lua_nginx_module模块,这一步安装时,遇到一个坑,nginx执行configure时,一直提示./configure: error: unsupported LuaJIT version; ngx_http_lua_module requires LuaJIT 2.x。 网上一堆方法都试了,都…...
Keil+VSCode优化开发体验
目录 一、引言 二、详细步骤 1、编译器准备 2、安装相应插件 2.1 安装C/C插件 2.2 安装Keil相关插件 3、添加keil环境变量 4、加载keil工程文件 5、VSCode中成功添加工程文件后可能出现的问题 5.1 编码不一致问题 6、在VSCode中进行编译工程以及烧录程序 7、效果展示…...
vue2中引入cesium全步骤
1.npm 下载cesium建议指定版本下载,最新版本有兼容性问题 npm install cesium1.95.0 2.在node_models中找到cesium将此文件下的Cesium文件复制出来放在项目的静态资源public中或者static中,获取去github上去下载zip包放在本地也可以 3.在index.html中引…...
工程师 - 智能家居方案介绍
1. 智能家居硬件方案概述 智能家居硬件方案是实现家庭自动化的重要组件,通过集成各种设备来提升生活的便利性、安全性和效率。这些方案通常结合了物联网技术,为用户提供智能化、自动化的生活体验。硬件方案的选择直接影响到智能家居系统的性能、兼容性、…...
中小企业人事管理:SpringBoot框架高级应用
摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,中小企业人事管理系统当然也不能排除在外。中小企业人事管理系统是以实际运用为开发背景,运用软件工程原理和…...
嵌入式Linux驱动开发日记
目录 让我们从环境配置开始 目标平台 从Ubuntu开始 从交叉编译器继续 arm-linux-gnueabihf-gcc vscode 没学过ARM汇编 正文开始——速度体验一把 写一个链接脚本 写一个简单的Makefile脚本 使用正点原子的imxdownload下载到自己的SD卡上 更进一步的笔记和说明 从IM…...
迪杰特斯拉算法(Dijkstra‘s)
迪杰斯特拉算法(Dijkstras algorithm)是由荷兰计算机科学家艾兹格迪科斯彻(Edsger W. Dijkstra)在1956年提出的,用于在加权图中找到单个源点到所有其他顶点的最短路径的算法。这个算法广泛应用于网络路由、地图导航等领…...
reids基础
数据结构类型 String setnx //设置key不存在,则添加成功 setex name 10 jack // key 10s失效,自动删除 hash hset hget list 按添加数据排序 lpush //左侧插入 rpush //右侧插入 set 不重复 sadd //添加…...
私有化部署视频平台EasyCVR宇视设备视频平台如何构建视频联网平台及升级视频转码业务?
在当今数字化、网络化的时代背景下,视频监控技术已广泛应用于各行各业,成为保障安全、提升效率的重要工具。然而,面对复杂多变的监控需求和跨区域、网络化的管理挑战,传统的视频监控解决方案往往显得力不从心。 EasyCVR视频融合云…...
SparkContext讲解
SparkContext讲解 什么是 SparkContext? SparkContext 是 Spark 应用程序的入口点,是 Spark 的核心组件之一。每个 Spark 应用程序启动时,都会创建一个 SparkContext 对象,它负责与集群管理器(如 YARN、Mesos 或 Spa…...
MODBUS TCP转CANOpen网关
Modbus TCP转CANopen网关 型号:SG-TCP-COE-210 产品用途 本网关可以实现将CANOpen接口设备连接到MODBUS TCP网络中;并且用户不需要了解具体的CANOpen和Modbus TCP 协议即可实现将CANOpen设备挂载到MODBUS TCP接口的 PLC上,并和CANOpen设备…...
渗透测试---shell(4)脚本与用户交互以及if条件判断
声明:学习素材来自b站up【泷羽Sec】,侵删,若阅读过程中有相关方面的不足,还请指正,本文只做相关技术分享,切莫从事违法等相关行为,本人一律不承担一切后果 目录 一、shell脚本与用户进行交互 使用 read 指…...
02_Spring_IoC实现
接下来先简单说一下关于IoC的一些要点,后面我们再详细一步一步讨论。 一、IoC控制反转 IoC控制反转它是一种思想,不是具体的实现控制反转的目的是为了降低程序的耦合度,提高程序的可扩展性,从而满足OCP原则和DIP原则控制反转,那到底反转是什么东西? 我们不再使用某个对象…...
使用Python3实现Gitee码云自动化发布
仓库信息 https://gitee.com/liumou_site/ip 实现代码 import osimport requests from loguru import loggerdef gitee(ver, message, prerelease: bool False):"""在 Gitee 上创建发布版本:param ver: 版本号:param message: 发布信息:param prerelease: 是…...
Ubuntu24.04下的docker问题
按官网提示是可以安装成功的,但是curl无法使用https下载,会造成下述语句执行失败 # Add Dockers official GPG key: sudo apt-get update sudo apt-get install ca-certificates curl sudo install -m 0755 -d /etc/apt/keyrings sudo curl -fsSL https…...
PAT (Basic Level) Practice (中文)1002 写出这个数
读入一个正整数 n,计算其各位数字之和,用汉语拼音写出和的每一位数字。 #include<bits/stdc.h> using namespace std; string a; int sum0; int f0; int n[10005]; int main(){ cin>>a; int c0; int laa.size(); for(int i…...
C07.L07.STL之映射.应用2.统计数字
题目描述 某次科研调查时得到了 n 个自然数,每个数均不超过 1500000000 (1.5*10^9 )。已知不相同的数不超过 10000 个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出统计结果。 输入格式 包含 2 行: 第…...
微信小程序组件详解:text 和 rich-text 组件的基本用法
微信小程序组件详解:text 和 rich-text 组件的基本用法 引言 在微信小程序的开发中,文本展示是用户界面设计中不可或缺的一部分。无论是简单的文本信息,还是复杂的富文本内容,text 和 rich-text 组件都能够帮助我们实现这些需求。本文将详细介绍这两个组件的基本用法,包…...
算法.图论-习题全集(Updating)
文章目录 本节设置的意义并查集篇并查集简介以及常见技巧并查集板子(洛谷)情侣牵手问题相似的字符串组岛屿数量(并查集做法)省份数量移除最多的同行或同列石头最大的人工岛找出知晓秘密的所有专家 建图及其拓扑排序篇链式前向星建图板子课程表 本节设置的意义 主要就是为了复习…...
this.$prompt 限制输入长度
this.$prompt(请输入关键词名称, 提示, {confirmButtonText: 确定,cancelButtonText: 取消,inputPattern: /^\d{0,50}$/,inputErrorMessage: 关键词名称长度不能超过50个字符 }).then(({ value }) > {})...
JDBC使用p6spy记录实际执行SQL方法【解决SQL打印两次问题】
p6spy介绍 p6spy 是一个开源的 JDBC 数据源代理工具,主要用于拦截和记录应用程序与数据库之间的所有 SQL 操作,方便开发者进行 SQL 调试、性能监控和问题排查。 p6spy可以打印实际执行的sql,在开发过程中方便调试,和使用框架无关…...
问题: redis-高并发场景下如何保证缓存数据与数据库的最终一致性
在高并发场景下,Redis 通常用作缓存层,与数据库结合使用以提高系统的性能。为了保证缓存数据与数据库的最终一致性,通常采用的有双写机制、缓存失效机制,基于双写机制、缓存失效机制又衍生出来了消息队列、事件驱动架构等 常见机…...
Stable Diffusion核心网络结构——CLIP Text Encoder
🌺系列文章推荐🌺 扩散模型系列文章正在持续的更新,更新节奏如下,先更新SD模型讲解,再更新相关的微调方法文章,敬请期待!!!(本文及其之前的文章均已更新&…...
做企业网站用什么cms/宁波seo推广咨询
一位用户反馈自己在电脑中使用QQ聊天时,经常看不到别人发送的图片,只能看到图片缓冲的样子,这是怎么回事呢?接下来,系统城小编就为大家分享电脑中qq群聊天图片无法查看问题的解决方法。方法如下:1、首先&am…...
云南哪里有给做网站的/seo排名赚app最新版本
第一章 初识jQuery 一、jQuery简介 是什么是jQuery? jQuery是一个优秀的JavaScript库,是一个凭借简洁的语法和跨平台的兼容性,极大地简化了JavaScript开发人员遍历HTML文档,操作DOM,执行动画和开发Ajax的操作。jQuery…...
做网站做域名/百度推广信息流有用吗
有时候我们需要在游戏或应用中用一些符合我们样式的提示框(AlertDialog) 以下是我在开发一个小游戏中总结出来的.希望对大家有用. 先上效果图: 下面是用到的背景图或按钮的图片 经过查找资料和参考了一下例子后才知道,要实现这种效果很简单.就是在设置alertDialog的contentV…...
php和java哪个做网站好/怎么创建网站?
用户数据行存储在文件系统中的堆文件中,而这些行以不确定的顺序存储。如果表最初以插入/复制的顺序加载,那么以后的插入、更新和删除将导致在堆文件中以不可预测的顺序添加行。创建索引创建一个指向堆行的辅助文件,并将索引条目与创建索引命令…...
安防公司手机网站/外包公司的人好跳槽吗
index.jsp的代码如下:具体的代码不在解释,我是按照下面的链接做的。不懂请参照链接。首页*{padding:0;margin:0;font-family:"微软雅黑";}.header{height:72px;background:#458fce ;}.header .logo{color:#fff ;line-height:70px;font-size:30…...
wordpress外链图片备份/东莞做网站排名优化推广
Java中有两类线程: User Thread(用户线程)、Daemon Thread(守护线程) 用个比较通俗的比如,任何一个守护线程都是整个JVM中所有非守护线程的保姆:只要当前JVM实例中尚存在任何一个非守护线程没有结束,守护线程就全部工作…...