高阳网站制作/推广手段和渠道有哪些

🌈个人主页:人不走空
💖系列专栏:算法专题
⏰诗词歌赋:斯是陋室,惟吾德馨
目录
🌈个人主页:人不走空
💖系列专栏:算法专题
⏰诗词歌赋:斯是陋室,惟吾德馨
4.1 算法与架构
4.1.1 Transformer解码器
4.1.2 自注意力机制的实现
4.1.3 多头注意力机制的实现
4.2 训练方法
4.2.1 预训练
4.2.2 微调
4.3 优化技巧
4.3.1 学习率调度
4.3.2 梯度裁剪
4.3.3 混合精度训练
4.4 模型评估
作者其他作品:
4.1 算法与架构
ChatGPT的核心技术基于Transformer架构,尤其是其解码器部分。为了更深入地理解其技术实现,我们需要详细了解以下几个关键组件和步骤:
4.1.1 Transformer解码器
Transformer解码器由多个解码器层组成,每个层包括以下主要组件:
- 自注意力机制(Self-Attention Mechanism):用于捕捉输入序列中各个单词之间的关系。
- 前馈神经网络(Feedforward Neural Network):对每个位置的表示进行非线性变换。
- 残差连接(Residual Connection)和层归一化(Layer Normalization):提高训练的稳定性和速度。
每个解码器层的输出将作为下一层的输入,经过多次堆叠,模型可以捕捉到复杂的语言模式和上下文信息。
4.1.2 自注意力机制的实现
自注意力机制的实现涉及三个步骤:生成查询、键和值向量,计算注意力权重,并加权求和值。
import torch
import torch.nn.functional as F# 输入矩阵 X,形状为 (batch_size, seq_length, d_model)
X = torch.rand(2, 10, 512) # 例如,batch_size=2, seq_length=10, d_model=512# 生成查询、键和值向量
W_Q = torch.rand(512, 64)
W_K = torch.rand(512, 64)
W_V = torch.rand(512, 64)Q = torch.matmul(X, W_Q)
K = torch.matmul(X, W_K)
V = torch.matmul(X, W_V)# 计算注意力权重
d_k = Q.size(-1)
scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
attention_weights = F.softmax(scores, dim=-1)# 计算加权和
attention_output = torch.matmul(attention_weights, V)
这个简单的实现展示了自注意力机制的核心步骤。多头注意力机制可以通过将查询、键和值向量分割成多个头并分别计算注意力来实现。
4.1.3 多头注意力机制的实现
多头注意力机制将输入向量分成多个子空间,并在每个子空间内独立计算注意力。
# 生成多头查询、键和值向量
num_heads = 8
d_k = 64 // num_heads # 假设每个头的维度相同Q_heads = Q.view(2, 10, num_heads, d_k).transpose(1, 2)
K_heads = K.view(2, 10, num_heads, d_k).transpose(1, 2)
V_heads = V.view(2, 10, num_heads, d_k).transpose(1, 2)# 分别计算每个头的注意力
attention_heads = []
for i in range(num_heads):scores = torch.matmul(Q_heads[:, i], K_heads[:, i].transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))attention_weights = F.softmax(scores, dim=-1)head_output = torch.matmul(attention_weights, V_heads[:, i])attention_heads.append(head_output)# 将多头注意力的输出拼接并线性变换
multi_head_output = torch.cat(attention_heads, dim=-1)
W_O = torch.rand(512, 512)
output = torch.matmul(multi_head_output.transpose(1, 2).contiguous().view(2, 10, -1), W_O)
4.2 训练方法
ChatGPT的训练方法分为预训练和微调两个阶段。下面详细介绍这两个阶段。
4.2.1 预训练
预训练阶段,模型在大规模的无监督文本数据上进行训练。训练的目标是预测给定上下文条件下的下一个单词。预训练采用自回归(Autoregressive)方法,即每次预测一个单词,然后将其作为输入用于下一次预测。
预训练过程通常使用交叉熵损失函数:
# 伪代码示例
for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batch # inputs 和 targets 是输入序列和目标序列optimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()optimizer.step()
4.2.2 微调
微调阶段,模型在特定任务或领域的数据上进一步训练。微调可以通过监督学习和强化学习两种方式进行。
-
监督学习微调:使用带标注的数据进行训练,优化特定任务的性能。例如,在对话生成任务中,使用对话数据对模型进行微调。
-
强化学习微调:通过与环境的交互,优化特定的奖励函数。强化学习微调通常使用策略梯度方法,例如Proximal Policy Optimization (PPO)。
# 伪代码示例
for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)rewards = compute_rewards(outputs, targets)loss = -torch.mean(torch.sum(torch.log(outputs) * rewards, dim=1))loss.backward()optimizer.step()
4.3 优化技巧
为了提高ChatGPT的性能和效率,通常会采用一些优化技巧:
4.3.1 学习率调度
学习率调度器(Learning Rate Scheduler)可以根据训练进度动态调整学习率,从而提高模型的收敛速度和性能。
from torch.optim.lr_scheduler import StepLRoptimizer = torch.optim.Adam(model.parameters(), lr=0.001)
scheduler = StepLR(optimizer, step_size=10, gamma=0.1)for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()optimizer.step()scheduler.step()
4.3.2 梯度裁剪
梯度裁剪(Gradient Clipping)用于防止梯度爆炸,尤其是在训练深层神经网络时。
for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)optimizer.step()
4.3.3 混合精度训练
混合精度训练(Mixed Precision Training)使用半精度浮点数进行计算,可以显著减少计算资源和内存使用,同时保持模型性能。
from torch.cuda.amp import GradScaler, autocastscaler = GradScaler()for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()with autocast():outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()
4.4 模型评估
在训练和微调过程中,对模型进行评估是确保其性能和质量的关键步骤。常用的评估指标包括困惑度(Perplexity)、准确率(Accuracy)、BLEU分数(BLEU Score)等。
# 伪代码示例
model.eval()
total_loss = 0.0with torch.no_grad():for batch in eval_data_loader:inputs, targets = batchoutputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))total_loss += loss.item()perplexity = torch.exp(torch.tensor(total_loss / len(eval_data_loader)))
print(f"Perplexity: {perplexity}")
下一部分将探讨ChatGPT在不同应用场景中的实际案例和未来发展方向。
作者其他作品:
【Java】Spring循环依赖:原因与解决方法
OpenAI Sora来了,视频生成领域的GPT-4时代来了
[Java·算法·简单] LeetCode 14. 最长公共前缀 详细解读
【Java】深入理解Java中的static关键字
[Java·算法·简单] LeetCode 28. 找出字a符串中第一个匹配项的下标 详细解读
了解 Java 中的 AtomicInteger 类
算法题 — 整数转二进制,查找其中1的数量
深入理解MySQL事务特性:保证数据完整性与一致性
Java企业应用软件系统架构演变史
相关文章:

【人工智能】第四部分:ChatGPT的技术实现
人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…...

小程序配置自定义tabBar及异形tabBar配置操作
什么是tabBar? 小程序的tabbar是指小程序底部的一组固定导航按钮,通常包含2-5个按钮,用于快速切换小程序的不同页面。每个按钮都有一个图标和文本标签,点击按钮可以切换到对应的页面。tabbar通常放置在小程序的底部,以…...

解析《动物园规则怪谈》【逻辑】
鉴赏《动物园规则怪谈》【逻辑】 前言版权推荐鉴赏《动物园规则怪谈》推理游客正方“它”方其他物品 不同规则或纸条的对比联系出现的地方及联系游客入园历程:被“它”污染的过程鉴赏升华 最后 前言 2024-5-31 13:05:38 以下内容源自《【逻辑】》 仅供学习交流使用…...

上传RKP 证书签名请求息上传到 Google 的后端服务器
上传证书签名请求 1.准备环境:OK pip3 install google-auth2.13.0 requests2.28下载 device_info_uploader.py 。 没找到先跳过 选项 1:通过 GCP 帐户使用 device_info_uploader.py 运行脚本。 ./device_info_uploader.py --credentials /secure/s…...

Debian和ubuntu 嵌入式的系统的 区别
随着开源操作系统的日益流行,Debian和Ubuntu这两个基于Linux的发行版本成为了众多开发者和系统管理员的首选。它们各自拥有独特的优势和特点,那么,在选择时,哪一个更适合你呢?接下来,我们将深入探讨两者的关…...

HTML旋转照片盒子
效果图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" content…...

【UE5 刺客信条动态地面复刻】实现无界地面01:动态生成
2024.6.4更新 昨天半夜意识到生成Cube的方案不合适,又开始到处找动态地面的方法,发现了我想要的效果直接可以用nigara实现!!!! 于是这个部分就暂时告一段落,今季开始新的方向的学习。 为了快速…...

AI产品经理系列-如何使用kimi快速撰写用户故事(含提示词)
在AI时代,可能人人都可成为产品经理。 之前我们聊过如何使用kimi协助完成产品需求文档,如何写竞品分析报告,这一篇我们聊聊用户故事,如何使用kimi协助撰写产品需求文档中的用户故事。 在此之前我们先了解下什么是用户故事&#…...

MySQL索引与事务
前言👀~ 紧接着数据库的相关知识,今天讲解MySQL面试中频繁被问到的知识点,索引与事务!!! 如果各位对文章的内容感兴趣的话,请点点小赞,关注一手不迷路,如果内容有什么问题的话,欢迎各位评论纠正…...

『大模型笔记』从基础原理出发提升深度学习性能
从基础原理出发提升深度学习性能 文章目录 一. 从基础原理出发提升深度学习性能1.1. 计算(compute)1.2. 带宽(Bandwidth)1.2.1 关于内存带宽成本的推理(Reasoning about Memory-Bandwidth Costs)1.3. 开销(Overhead)二. 总结三. 参考文献Making Deep Learning Go Brrrr F…...

【二叉树】Leetcode 222. 完全二叉树的节点个数【简单】
完全二叉树的节点个数 你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 完全二叉树 的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最…...

golang界面设计器,全网少见
今天登录govcl的网站,无意中看到有个简易UI设计器。 对于golang的UI专用设计器,还没在网上真正见过。 之前也用govcl来做过两三个桌面应用,好用是好用,不过要安装Lazarus的IDE来拖动设计UI,还要配置很多东西࿰…...

如何在GlobalMapper中加载高清卫星影像?
GlobalMapper在GIS行业几乎无人不知,无人不晓,但它可以直接加载卫星影像也许就不是每个人都知道的了。 这里就来分享一下如何在GlobalMapper中加载高清卫星影像,并可以在文末查看领取软件安装包和图源的方法。 如何加载高清图源 首先&…...

【机器学习】解锁AI密码:神经网络算法详解与前沿探索
👀传送门👀 🔍引言🍀神经网络的基本原理🚀神经网络的结构📕神经网络的训练过程🚆神经网络的应用实例💖未来发展趋势💖结语 🔍引言 随着人工智能技术的飞速发…...

Java如何实现pdf转base64以及怎么反转?
问题需求 今天在做发送邮件功能的时候,发现邮件的附件部分,比如pdf文档,要求先把pdf转为base64,邮件才会发送。那接下来就先看看Java 如何把 pdf文档转为base64。 两种方式,一种是通过插件 jar 包的方式引入…...

动态规划5:62. 不同路径
动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:62. …...

Python编程学习第一篇——Python零基础快速入门(五)-列表(List)
今天我们来一起学习Python的列表(list),Python中的列表(List)是一种有序、可变的数据结构,可以用来存储多个值。列表可以包含不同类型的数据,例如整数、浮点数、字符串等。以下是关于Python列表…...

c# - 运算符 << 不能应用于 long 和 long 类型的操作数
Compiler Error CS0019 c# - 运算符 << 不能应用于 long 和 long 类型的操作数 处理方法 特此记录 anlog 2024年5月30日...

问题排查|记录一次基于mymuduo库开发的服务器错误排查(回响服务器无法正常工作)
问题背景: 服务器程序如下: #include <mymuduo/TcpServer.h> #include <mymuduo/Logger.h>#include <string> #include <functional>class EchoServer { public:EchoServer(EventLoop *loop,const InetAddress &addr, con…...

中介模式实现聊天室
中介者模式的核心逻辑就是解耦对象‘多对多’的相互依赖关系。当遇到一大堆混乱的对象呈现“网状结构”,利用通过中介者模式解耦对象之间的通讯。 代码案例 抽象中介类 public abstract class AbstractChatRoom {public abstract void notice(String message , Us…...

游戏开发与游戏设计区别
游戏设计与游戏开发是两个紧密相关但有着不同重点的领域,通常需要不同的技能和流程。以下是对游戏设计与游戏开发的详细解释,以及两者的区别: 游戏设计是关于构思和规划游戏的内容、机制和体验的过程。 主要内容: 故事和情节:构…...

卡尔曼滤波算法的matlab实现
卡尔曼滤波算法的matlab实现 figure; hold on;Z(1:1:100); %观测值:第一秒观测1m 第二秒观测两米 匀速运动, 每秒1m, 最后拟合的也是速度 1m/splot(Z); plot([0,100], [1,1]);noiserandn(1,100)*0.5; %生成方差为1的高斯噪声 ZZnoise; % 加入噪声plot(Z);X[0;…...

Unity Obi Rope失效
文章目录 前言一、WebGL端Obi Rope失效二、Obi Rope 固定不牢三、使用Obi后卡顿总结 前言 Obi 是一款基于粒子的高级物理引擎,可模拟各种可变形材料的行为。 使用 Obi Rope,你可以在几秒内创建绳索和杆子,同时完全控制它们的形状和行为&…...

基于Nginx和Consul构建自动发现的Docker服务架构——非常之详细
基于Nginx和Consul构建自动发现的Docker服务架构 文章目录 基于Nginx和Consul构建自动发现的Docker服务架构资源列表基础环境一、安装Docker1.1、Consul节点安装1.2、registrator节点安装 二、案例前知识点2.1、什么是Consul 三、基于Nginx和Consul构建自动发现的Docker服务架构…...

Gnu/Linux 系统编程 - 如何获取帮助及一个演示
Gnu/Linux 系统编程 - 如何获取帮助及一个演示 今天开始写 Gnu/Linux 环境下的系统编程,主要的用的语言是 C,主要是为了学习 C 语言,边学边写,这样的学习速度是比较快的。 今天就先介绍下如何在手头上没有任何资料的情况下&…...

ffmpeg 的sws_scale接口函数解析
ffmpeg 的 sws_scale 函数是 libswscale 库中的一个重要函数,用于进行图像的缩放和颜色空间转换。它的主要作用是将输入图像帧转换为另一种尺寸或颜色格式的输出图像帧。下面详细解析一下 sws_scale 函数的作用、参数等。 sws_scale 函数的作用 ffmpeg 的 sws_sca…...

MoonBit 本周新增类型标注语法、继续进行核心库 API 整理工作
MoonBit更新 类型标注增加了新的语法T? 来表示Option[T] struct Cell[T] {val: Tnext: Cell[T]? }fn f(x : Cell[T]?) -> Unit { ... }相当于 struct Cell[T] {val: Tnext: Option[Cell[T]] }fn f(x : Option[Cell[T]]) -> Unit { ... }旧的Option[T]仍然兼容&…...

YOLOv10训练自己的数据集
目录 0、引言 1、环境配置 2、数据集准备 3、创建配置文件 3.1、设置官方配置文件:default.yaml,可自行修改。 3.2、设置data.yaml 4、进行训练 4.1、方法一 4.2、方法二 5、验证模型 5.1、命令行输入 5.2、脚本运行 6、总结 0、引言 本文…...

探索Web前端三大主流框架:Angular、React和Vue.js
探索Web前端三大主流框架:Angular、React和Vue.js 在现代Web开发中,前端框架已经成为开发者构建复杂应用的重要工具。Angular、React和Vue.js是目前最受欢迎的三大前端框架,它们各具特色,适用于不同的开发需求。本文将详细介绍这…...

《HelloGitHub》第 98 期
兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…...