当前位置: 首页 > news >正文

大模型学习

大模型

大规模语言模型(Large Language Model)简称,具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,指具有数百万到数十亿参数的神经网络模型。
优点:
更强大、更准确的模型性能,可面对复杂庞大数据集或任务。
学习更细微的模式和规律,具有更强泛化和表达能力。
1.模型碎片化,大模型提供预训练方案
预训练大模型+下游任务微调
2.大模型具备自监督学习功能,降低训练研发成本
3.大模型有望进一步突破现有模型结构的精度局限
缺点:
资源消耗大,需要大量计算资源、存储空间,对计算设备要求高。
训练时间较长,随着参数规模增大,训练时长也增大。
对数据集需求高,若训练数据不充足或不平衡,将导致模型过拟合或性能下降。

DeepSpeed

ZeRO(零冗余优化器):扩大规模、内存优化、提升速度、控制成本

MindSpore

静态图模式下,融合了流水线并行、模型并行、数据并行,只需编写单机算法代码,添加少量并行标签,即可实现训练过程自动切分,让并行算法性能调优时间从月级降为小时级,训练性能也提高40%。
动态图模式下,使用函数式微分设计,轻易从一阶微分扩展到高阶微分,对整图性能优化,大幅提升动态图性能。结合创新的通讯算子融合多流并行机制,动态图性能提升60%。

AI大模型

人工智能预训练大模型的简称,含义1:预训练,含义2:大模型

优点

1.上下文理解能力
2.语言生成能力
3.学习能力强
4.可迁移性高。学习到的知识和能力可以在不同任务和领域中迁移和应用,无需重新训练。

发展

多层感知机(Multi-Layer Perceptron,MLP)

包括输入层、隐藏层和输出层。输入层接收原始数据作为输入,隐藏层通过一系列非线性变换将输入进行特征提取和转换,输出层产生模型的预测结果。
工作原理:通过权重和偏置参数对输入数据进行线性组合和非线性激活,以学习和表示输入数据之间的复杂关系。通过反向传播算法,MLP可以根据预定义的损失函数进行训练和优化,使输出接近目标值。在分类和回归使用多,扩展为卷积神经网络CNN和循环神经网络RNN。

循环神经网络

处理序列数据的神经网络模型,引入循环连接,让网络对先前信息记忆和利用。允许信息在时间上传递,更好的捕捉序列中上下文信息,有助于自然语言处理、语音识别等。
网络的输出不仅依赖于当前输入,还依赖于之前的输入和隐藏状态。隐藏状态可以看作是网络对之前输入的记忆,在每个时间步都会被更新,并传递给下一个时间步。
RNN的循环连接让网络对序列数据进行建模,能够捕捉序列中的时序信息和依赖关系。
传统的RNN在处理长序列式存在梯度消失和梯度爆炸问题,难以捕捉长距离的依赖关系,改进为长短时记忆网络和门控循环单元GRU,用门控机制改进梯度传播和记忆能力。

卷积神经网络

处理网格数据结构,如图像、语音和时间序列,通过局部连接、权值共享和池化,有效减少了参数数量,用于图像处理和计算机视觉。
用卷积和池化运算有效提取图像特征。用多层堆叠的卷积层和全连接层进行特征提取和分类。包括卷积层、激活函数、池化层和全连接层。卷积层用一组可学习的滤波器对输入数据进行卷积操作,提取空间特征。激活函数引入非线性变换,增强模型的表达能力。池化层减少特征图的尺寸和数量,降低计算复杂度,保留重要特征。全连接层将汇集的特征映射转化为模型的最终输出。
应用于计算机视觉,如图像分类、目标检测和图像分割。通过共享权重和局部连接,减少了参数量,提高了模型的效率和泛化能力。

深度信念网络

用于学习数据的潜在表示和特征提取,可逐层预训练的深度模型。每一层无监督的预训练,避免大量标注数据,学习到数据的分布特征,提取出高级的抽象特征表示。有监督的微调。通过层层堆叠的方式逐渐学习数据的分布特征。

分类

按照模型数据:语言模型,图像模型,多模态模型
按照模型开发模式:
开源大模型,可免费获取和使用,开放的代码使用户自由地查看、修改和定制模型,以适应特定需求和任务。比如Transformers、BERT、ChatGLM。强调代码的开放性和自由性。
在线大模型,部署在云端或网络上的大型机器学习或深度学习模型,由云服务提供商或在线平台提供,通过接口或API的方式访问或使用。用户无需关注底层硬件和软件架构,只需通过网络请求即可获得模型的预测结果。可实时或按需的模型调用。提供方便、快捷和按需的模型服务。

GPT模型

生成式预训练Transformer模型(Generative Pre-trained Transformer) 简称
应用:自动文本生成,语义理解,情感分析和舆情监测。
大模型+PRA:前者提供自然语言理解及逻辑知识的归纳泛化能力,后者基于实在智能自研的智能屏幕语义理解技术ISSUT,实现和计算机的自动化交互及完成指令动作。
大模型+IDP:借助TARS垂直大模型的语言理解和深度学习能力,为用户提供与文档直接对话能力。
GPT-1:上亿规模的参数量,数据集使用了一万本书的BookCorpus,25亿单词量
GPT-2:15亿规模参数量,数据来自互联网,使用800万在Reddit被链接过的网页数据,清洗后约40GB
GPT-3:首次突破百亿参数量,到1750亿,训练数据超过45TB,数据集将语料规模扩大到570GB的CC数据集(4千词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)

行业大模型

在特定行业领域应用的大型语言模型,更专注于某个特定行业,比如金融、医疗、法律等。

营销大模型

运用人机交互,让广告主回归本质,专注于自身经营策略和消费者理解,避免繁复关键词和爆炸数据。
1.让广告主自由表达营销策略,不纠结关键词,直接把需要推广的产品/服务、广告的目标人群告诉大模型,大模型就能够理解人类意图,自动生成营销方案。
避免关键词疏漏造成的营销信息丢失。
2.基于生成式AI,根据用户搜索词、兴趣、意图,秒级生成广告文案、图片素材。
3.多维度流量洞察:自动完成数据可视化和重要数据摘要,提升投放数据分析效率。
4.端到端分配,序列化决策,提升分配效率。端到端计费,学习历史不同状态下的最优计费,大幅提升成本达成率。

轻舸

垂直大模型:以文心大模型为核心
1.结合微调、检索增强生成,让AI理解营销行业知识,缓解大模型幻觉问题
2.主动规划:通过提示工程,让AI扮演主动引导用户表达需求、完成营销策略生成的角色。
3.记忆:给AI加上场景识别和长期记忆能力,把投放行为和投放表达记住,方便后续方案跟进调整。
4.工具使用:让大模型学会使用第三方工具,比如调用投放系统,生成文案、图片素材的插件。
解决的问题:
1.表达
需求转为关键词,系统再根据关键词去执行策略,两层损失。
→直接理解,多轮对话中引导用户表达出更丰富的需求。
2.管理
累积计划、创意、关键词很多
→高效分析解读和优化调整数据
3.使用
80%功能不会用,或不知道其存在。
→使用自然语言交互,让用户可以自由表达、随时反馈,另外80%的功能可以由AI在对话中主动引导,人机协同地去使用。
人机交流更顺畅,机器迭代速度加快,人类拿到反馈速度加快。
内容和经营两大方向。
内容插件背景为AIGC创意平台擎舵。擎舵平台主打多模态创意生成,可轻松实现文案生成、图片生成和数字人视频制作三大需求。速度加快,成本降低。
经营使用百度的品牌 BOT,其具有识别用户意图并提供相应回复的能力,也可以定制专属数字人形象,多种样式及可定制化形象。

大型语言模型

有巨大的模型参数和能力,可自动学习语言的规则、模式和语义,从而生成连贯准确的文本。应用于自然语言处理、机器翻译、文本生成等。

相关文章:

大模型学习

大模型 大规模语言模型(Large Language Model)简称,具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,指具有数百万到数十亿参数的神经网络模型。 优点: 更强大、更准确的模型性能,可面对复杂…...

Redis原理:IntSet

(笔记总结自b站黑马程序员课程) 一、结构 IntSet是Redis中set集合的一种实现方式,基于整数数组来实现,并且具备长度可变、有序等特征。 结构如下: typedef struct intset {uint32_t encoding; //编码方式uint32_t l…...

【已解决】Splunk 8.2.X 升级ES 后红色报警

1: 背景: 由于splunk ES 占有很大的computing resource, 所以,Splunk ES 升级到7.1.1 后,有红色的alert. 2: 解决方法: 降低iowait 的 threshold: Investigation The default threshold setting for IOWait is pre-set to a low value and may not be relevant to the …...

香橙派使用外设驱动库wiringOP 配合定时器来驱动舵机

舵机认识和硬件接线 关于舵机也是使用过很多次了,详见: 使用PWM波控制开发SG90-CSDN博客 同时再次回顾香橙派的物理引脚对应: 所以舵机的VCC接 2,GND接 6,PWM接 7(此处写的是物理引脚编号) Li…...

C++学习笔记--函数重载(2)

文章目录 1.3、Function Templates Handling1.3.1、Template Argument Deduction1.3.2、Template Argument Substitution 1.4、Overload Resolution1.4.1、Candidate functions1.4.2、Viable functions1.4.3、Tiebreakers 1.5、走一遍完整的流程1.6、Name Mangling1.7、总结 1.…...

代码随想录算法训练营Day56 || ● 583. 两个字符串的删除操作 ● 72. 编辑距离

今天接触到了真正的距离,但可以通过增删改操作来逼近。 问题1:583. 两个字符串的删除操作 - 力扣(LeetCode) 给定两个单词 word1 和 word2 ,返回使得 word1 和 word2 相同所需的最小步数。 每步 可以删除任意一个字…...

chrome_elf.dll丢失怎么办?修复chrome_elf.dll文件的方法

Chrome是目前最受欢迎的网络浏览器之一,然而有时用户可能会遇到Chrome_elf.dll丢失的问题。该DLL文件是Chrome浏览器的一个重要组成部分,负责启动和管理程序的各种功能。当Chrome_elf.dll丢失时,用户可能无法正常启动Chrome或执行某些功能。本…...

代码随想录32|738.单调递增的数字,968.监控二叉树,56. 合并区间

738.单调递增的数字 链接地址 class Solution { public:int monotoneIncreasingDigits(int n) {string str to_string(n);int flag str.size();for (int i str.size() - 1; i > 0; i--) {if (str[i] < str[i - 1]) {str[i - 1] - 1;flag i;}}for (int j flag; j <…...

BIO NIO AIO演变

Netty是一个提供异步事件驱动的网络应用框架&#xff0c;用以快速开发高性能、高可靠的网络服务器和客户端程序。Netty简化了网络程序的开发&#xff0c;是很多框架和公司都在使用的技术。 Netty并非横空出世&#xff0c;它是在BIO&#xff0c;NIO&#xff0c;AIO演变中的产物…...

JVM GC垃圾回收

一、GC垃圾回收算法 标记-清除算法 算法分为“标记”和“清除”阶段&#xff1a;标记存活的对象&#xff0c; 统一回收所有未被标记的对象(一般选择这种)&#xff1b;也可以反过来&#xff0c;标记出所有需要回收的对象&#xff0c;在标记完成后统一回收所有被标记的对象 。它…...

【数据结构】队列知识点总结--定义;基本操作;队列的顺序实现;链式存储;双端队列;循环队列

欢迎各位看官^_^ 目录 1.队列的定义 2.队列的基本操作 2.1初始化队列 2.2判断队列是否为空 2.3判断队列是否已满 2.4入队 2.5出队 2.6完整代码 3.队列的顺序实现 4.队列的链式存储 5.双端队列 6.循环队列 1.队列的定义 队列&#xff08;Queue&#xff09;是一种先…...

嵌入式学习之链表

对于链表&#xff0c;要重点掌握链表和数组区别和实现&#xff0c;链表静态添加和动态遍历&#xff0c;链表中pointpoint-next,链表节点个数的查找&#xff0c;以及链表从指定节点后方插入新节点的知识。...

静态代理和动态代理笔记

总体分为: 1.静态代理: 代理类和被代理类需要实现同一个接口.在代理类中初始化被代理类对象.在代理类的方法中调 用被代理类的方法.可以选择性的在该方法执行前后增加功能或者控制访问 2.动态代理: 在程序执行过程中,实用JDK的反射机制,创建代理对象,并动态的指定要…...

[SM6225][Android13]user版本默认允许root和remount

开发平台基本信息 芯片: 高通SM6225版本: Android 13kernel: msm-5.15 问题描述 刚刚从Framework踏入性能的小殿堂&#xff0c;User版本默认是不会开启root权限的&#xff0c;而且一般调试需要设置一下CPU GPU DDR performance模式或者修改一些schedule util等调核调频节点去…...

pyinstaller打包exe,使用wexpect的问题

参考github首先打包wexpect 1.进入wexpect目录执行 pyinstaller __main__.py -n wexpect 会生成dist文件夹 2.python代码A.py中使用wexpect&#xff0c;注意wexpect.spawn前后必须按照下面添加代码 import sys,os,wexpect #spawn前 real_executable sys.executable try:if sy…...

OpenCV(三十三):计算轮廓面积与轮廓长度

1.介绍轮廓面积与轮廓长度 轮廓面积&#xff08;Contour Area&#xff09;是指轮廓所包围的区域的总面积。通常情况下&#xff0c;轮廓面积的单位是像素的平方。 轮廓长度&#xff08;Contour Length&#xff09;又称周长&#xff08;Perimeter&#xff09;&#xff0c;表示轮廓…...

9.11作业

实现一个对数组求和的函数&#xff0c;数组通过实参传递给函数 sum0 arr(11 22 33 44 55) Sum() {for i in ${arr[*]}do$((sumi))donereturn $sum } Sum ${arr[*]} var$? echo $var写一个函数&#xff0c;输出当前用户的uid和gid&#xff0c;并使用变量接收结果 Sum() {aid -…...

AI伦理与未来社会:探讨人工智能的道德挑战与机会

引言 引出AI伦理和社会影响的主题&#xff0c;强调AI的快速发展和广泛应用。 概述博客的主要内容&#xff1a;探讨AI的伦理挑战以及它对社会的影响。 第一部分&#xff1a;AI的伦理挑战 算法偏见&#xff1a; 解释什么是算法偏见&#xff0c;以及它为何在AI中成为一个重要问题。…...

Android窗口层级(Window Type)分析

前言 Android的窗口Window分为三种类型&#xff1a; 应用Window&#xff0c;比如Activity、Dialog&#xff1b;子Window&#xff0c;比如PopupWindow&#xff1b;系统Window&#xff0c;比如Toast、系统状态栏、导航栏等等。 应用Window的Z-Ordered最低&#xff0c;就是在系…...

微信小程序基础加强总结

本篇文章给大家带来了关于微信小程序的相关问题&#xff0c;其中主要介绍了一些基础内容&#xff0c;包括了自定义组件、样式隔离、数据、方法和属性等等内容&#xff0c;下面一起来看一下&#xff0c;希望对大家有帮助。 1、自定义组件 1.1、创建组件 在项目的根目录中&…...

【JAVA - List】差集removeAll() 四种方法实现与优化

一、场景&#xff1a; 二、结论&#xff1a; 1. 四种方法耗时 三、代码&#xff1a; 一、场景&#xff1a; 求差集 List1 - Lsit2 二、结论&#xff1a; 1. 四种方法耗时 初始条件方法名方法思路耗时 List1.size319418 List2.size284900 List..removeAll(Lsit2)1036987ms…...

sql注入基本概念

死在山野的风里&#xff0c;活在自由的梦里 sql注入基本概念 MYSQL基本语法union合并查询2个特性&#xff1a;order by 排序三个重要的信息 Sql Server MYSQL 基本语法 登录 mysql -h ip -u user -p pass基本操作 show databases; 查看数据库crea…...

AIGC系列:1.chatgpt可以用来做哪些事情?

上图的意思&#xff1a;神器轩辕剑 那么&#xff0c;在现在AI盛行的信息时代&#xff0c; 你是否知道如何获得和利用ChatGPT这一把轩辕剑来提升你的攻击力和生存能力呢&#xff1f; 故事 程序员小张&#xff1a; 刚毕业&#xff0c;参加工作1年左右&#xff0c;日常工作是C…...

End-to-End Object Detection with Transformers(论文解析)

End-to-End Object Detection with Transformers 摘要介绍相关工作2.1 集合预测2.2 transformer和并行解码2.3 目标检测 3 DETR模型3.1 目标检测集设置预测损失3.2 DETR架构 摘要 我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程&#xff0c…...

生成多样、真实的评论(2019 IEEE International Conference on Big Data )

论文题目&#xff08;Title&#xff09;&#xff1a;Learning to Generate Diverse and Authentic Reviews via an Encoder-Decoder Model with Transformer and GRU 研究问题&#xff08;Question&#xff09;&#xff1a;评论生成&#xff0c;由上下文评论->生成评论 研…...

项目中应该使用nginx还是拦截器来封禁IP

项目中应该使用nginx还是拦截器来封禁IP 在项目中&#xff0c;使用 Nginx 或拦截器&#xff08;例如 Spring Interceptor&#xff09;来封禁 IP 地址都是可行的方法&#xff0c;具体选择取决于你的需求和项目架构。 Nginx 是一种高性能的 Web 服务器和反向代理服务器&#xf…...

SMB 协议详解之-NTLM身份认证

前面的文章说明了SMB协议交互的过程,在SMB交互的Session Setup Request/Response会对请求者的身份进行验证,这其中涉及到两个主要的协议NTLM以及Kerberos,本文将对NTLM协议进行详细的说明。 什么是NTLM NTLM是 NT LAN Manager (NTLM) Authentication Protocol 的缩写,主要…...

day34 Set

概述 Set也是集合Collection接口的子接口 Set也是集合Collection接口的子接口 特点&#xff1a;不保证元素有顺序&#xff0c;数组元素不可以重复 HashSet: 底层是基于HashMap的。元素是无序的。元素不可重复&#xff0c;去重机制是依据hashCode()和equals()方法 LinkedHas…...

数据库_之常用API的使用

数据库_之电商API MySQL C API 使用&#xff08;基本函数&#xff09; Mysql C API函数详解 MySQL的常用API 一个常用的程序调用MySQL数据库的时候通常都会调用以下API,下面来逐个分析. mysql_init() //函数原型 MYSQL *STDCALL mysql_init(MYSQL *mysql);这个API主要是用来分…...

CTreeCtrl自绘

CSWTreeCtrl.h&#xff09; #pragma once#define _OWNER_DRAWN_TREE // 自绘CTreeCtrl&#xff0c;可支持背景图片显示功能class CSWTreeCtrl : public CTreeCtrl {DECLARE_DYNAMIC(CSWTreeCtrl)// 成员私有结构定义// 构造/析构函数 public:CSWTreeCtrl();virtual ~CSWTreeC…...

wordpress无法添加小工具/整站优化价格

GPIO外部中断 文章目录 GPIO外部中断1、GPIO中断介绍2、GPIO中断使用步骤3、软件准备4、硬件准备5、代码实现在前面的文章 ESP32设备驱动-GPIO数字输入与输出中介绍如何对GPIO进行控制操作。本文将在该基础上使用GPIO中断进一步优化按键输入。即演示如何使用GPIO中断。 1、GPI…...

wordpress个性化友情链接页面/网站建设开发公司

上一篇博客&#xff1a;数据类型转换、ASCII编码 目录 算术运算符赋值运算符比较运算符逻辑运算符三元运算符 开始 算术运算符 算数运算符包括&#xff1a; 加法运算&#xff0c;字符串连接运算 - 减法运算 * 乘法运算 / 除法运算 % 取模运算&#xff0c;两…...

国家已明令禁止现货交易/cpu游戏优化加速软件

好的,我会用中文来回答你的问题。 首先,我需要确认一下你问的是否是 Transformer-XL 这个模型?Transformer-XL 是一个在长序列上的自注意力机器翻译模型,它在许多自然语言处理任务中表现出了很好的性能。 如果你是想问如何使用 Transformer-XL,那么首先你需要在 PyTorch 中…...

网站百度知道/google官方下载app

SQL约束1 主键约束添加主键约束删除主键约束2 自动增长列3 非空约束添加非空约束删除非空约束4 唯一约束添加唯一约束删除唯一约束5 默认约束添加默认约束删除默认约束什么是约束 约束, 其实就是一种限制条件, 让你不能超出这个控制范围. 而在数据库中的约束, 就是指 表中的数…...

网站里面的视频功能怎么做/产品营销策略有哪些

作者在开始讲正文之前先对读者做了一个小测验&#xff1a;换一个灯泡需要多少个程序员&#xff1f;(貌似换灯泡跟程序员关系不大&#xff09;&#xff0c;可能有三种答案&#xff1a; 1.根本不需要&#xff0c;因为灯泡根本没坏。 2.仅仅需要一名&#xff0c;但是需要耗费一整…...

深圳网站建设号/网站推广方法

jquery视频播放器jQuery演示代码段可将QuickTime视频播放器动态插入您的网页。 这是带有最少控件的原始视频播放&#xff0c;如果要自定义&#xff0c;可以非常容易地在播放器对象中设置参数。 要使用该代码&#xff0c;请记住更改视频的网址&#xff0c;并且您需要一个id为“ …...