大模型学习
大模型
大规模语言模型(Large Language Model)简称,具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,指具有数百万到数十亿参数的神经网络模型。
优点:
更强大、更准确的模型性能,可面对复杂庞大数据集或任务。
学习更细微的模式和规律,具有更强泛化和表达能力。
1.模型碎片化,大模型提供预训练方案
预训练大模型+下游任务微调
2.大模型具备自监督学习功能,降低训练研发成本
3.大模型有望进一步突破现有模型结构的精度局限
缺点:
资源消耗大,需要大量计算资源、存储空间,对计算设备要求高。
训练时间较长,随着参数规模增大,训练时长也增大。
对数据集需求高,若训练数据不充足或不平衡,将导致模型过拟合或性能下降。
DeepSpeed
ZeRO(零冗余优化器):扩大规模、内存优化、提升速度、控制成本
MindSpore
静态图模式下,融合了流水线并行、模型并行、数据并行,只需编写单机算法代码,添加少量并行标签,即可实现训练过程自动切分,让并行算法性能调优时间从月级降为小时级,训练性能也提高40%。
动态图模式下,使用函数式微分设计,轻易从一阶微分扩展到高阶微分,对整图性能优化,大幅提升动态图性能。结合创新的通讯算子融合多流并行机制,动态图性能提升60%。
AI大模型
人工智能预训练大模型的简称,含义1:预训练,含义2:大模型
优点
1.上下文理解能力
2.语言生成能力
3.学习能力强
4.可迁移性高。学习到的知识和能力可以在不同任务和领域中迁移和应用,无需重新训练。
发展
多层感知机(Multi-Layer Perceptron,MLP)
包括输入层、隐藏层和输出层。输入层接收原始数据作为输入,隐藏层通过一系列非线性变换将输入进行特征提取和转换,输出层产生模型的预测结果。
工作原理:通过权重和偏置参数对输入数据进行线性组合和非线性激活,以学习和表示输入数据之间的复杂关系。通过反向传播算法,MLP可以根据预定义的损失函数进行训练和优化,使输出接近目标值。在分类和回归使用多,扩展为卷积神经网络CNN和循环神经网络RNN。
循环神经网络
处理序列数据的神经网络模型,引入循环连接,让网络对先前信息记忆和利用。允许信息在时间上传递,更好的捕捉序列中上下文信息,有助于自然语言处理、语音识别等。
网络的输出不仅依赖于当前输入,还依赖于之前的输入和隐藏状态。隐藏状态可以看作是网络对之前输入的记忆,在每个时间步都会被更新,并传递给下一个时间步。
RNN的循环连接让网络对序列数据进行建模,能够捕捉序列中的时序信息和依赖关系。
传统的RNN在处理长序列式存在梯度消失和梯度爆炸问题,难以捕捉长距离的依赖关系,改进为长短时记忆网络和门控循环单元GRU,用门控机制改进梯度传播和记忆能力。
卷积神经网络
处理网格数据结构,如图像、语音和时间序列,通过局部连接、权值共享和池化,有效减少了参数数量,用于图像处理和计算机视觉。
用卷积和池化运算有效提取图像特征。用多层堆叠的卷积层和全连接层进行特征提取和分类。包括卷积层、激活函数、池化层和全连接层。卷积层用一组可学习的滤波器对输入数据进行卷积操作,提取空间特征。激活函数引入非线性变换,增强模型的表达能力。池化层减少特征图的尺寸和数量,降低计算复杂度,保留重要特征。全连接层将汇集的特征映射转化为模型的最终输出。
应用于计算机视觉,如图像分类、目标检测和图像分割。通过共享权重和局部连接,减少了参数量,提高了模型的效率和泛化能力。
深度信念网络
用于学习数据的潜在表示和特征提取,可逐层预训练的深度模型。每一层无监督的预训练,避免大量标注数据,学习到数据的分布特征,提取出高级的抽象特征表示。有监督的微调。通过层层堆叠的方式逐渐学习数据的分布特征。
分类
按照模型数据:语言模型,图像模型,多模态模型
按照模型开发模式:
开源大模型,可免费获取和使用,开放的代码使用户自由地查看、修改和定制模型,以适应特定需求和任务。比如Transformers、BERT、ChatGLM。强调代码的开放性和自由性。
在线大模型,部署在云端或网络上的大型机器学习或深度学习模型,由云服务提供商或在线平台提供,通过接口或API的方式访问或使用。用户无需关注底层硬件和软件架构,只需通过网络请求即可获得模型的预测结果。可实时或按需的模型调用。提供方便、快捷和按需的模型服务。
GPT模型
生成式预训练Transformer模型(Generative Pre-trained Transformer) 简称
应用:自动文本生成,语义理解,情感分析和舆情监测。
大模型+PRA:前者提供自然语言理解及逻辑知识的归纳泛化能力,后者基于实在智能自研的智能屏幕语义理解技术ISSUT,实现和计算机的自动化交互及完成指令动作。
大模型+IDP:借助TARS垂直大模型的语言理解和深度学习能力,为用户提供与文档直接对话能力。
GPT-1:上亿规模的参数量,数据集使用了一万本书的BookCorpus,25亿单词量
GPT-2:15亿规模参数量,数据来自互联网,使用800万在Reddit被链接过的网页数据,清洗后约40GB
GPT-3:首次突破百亿参数量,到1750亿,训练数据超过45TB,数据集将语料规模扩大到570GB的CC数据集(4千词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)
行业大模型
在特定行业领域应用的大型语言模型,更专注于某个特定行业,比如金融、医疗、法律等。
营销大模型
运用人机交互,让广告主回归本质,专注于自身经营策略和消费者理解,避免繁复关键词和爆炸数据。
1.让广告主自由表达营销策略,不纠结关键词,直接把需要推广的产品/服务、广告的目标人群告诉大模型,大模型就能够理解人类意图,自动生成营销方案。
避免关键词疏漏造成的营销信息丢失。
2.基于生成式AI,根据用户搜索词、兴趣、意图,秒级生成广告文案、图片素材。
3.多维度流量洞察:自动完成数据可视化和重要数据摘要,提升投放数据分析效率。
4.端到端分配,序列化决策,提升分配效率。端到端计费,学习历史不同状态下的最优计费,大幅提升成本达成率。
轻舸
垂直大模型:以文心大模型为核心
1.结合微调、检索增强生成,让AI理解营销行业知识,缓解大模型幻觉问题
2.主动规划:通过提示工程,让AI扮演主动引导用户表达需求、完成营销策略生成的角色。
3.记忆:给AI加上场景识别和长期记忆能力,把投放行为和投放表达记住,方便后续方案跟进调整。
4.工具使用:让大模型学会使用第三方工具,比如调用投放系统,生成文案、图片素材的插件。
解决的问题:
1.表达
需求转为关键词,系统再根据关键词去执行策略,两层损失。
→直接理解,多轮对话中引导用户表达出更丰富的需求。
2.管理
累积计划、创意、关键词很多
→高效分析解读和优化调整数据
3.使用
80%功能不会用,或不知道其存在。
→使用自然语言交互,让用户可以自由表达、随时反馈,另外80%的功能可以由AI在对话中主动引导,人机协同地去使用。
人机交流更顺畅,机器迭代速度加快,人类拿到反馈速度加快。
内容和经营两大方向。
内容插件背景为AIGC创意平台擎舵。擎舵平台主打多模态创意生成,可轻松实现文案生成、图片生成和数字人视频制作三大需求。速度加快,成本降低。
经营使用百度的品牌 BOT,其具有识别用户意图并提供相应回复的能力,也可以定制专属数字人形象,多种样式及可定制化形象。
大型语言模型
有巨大的模型参数和能力,可自动学习语言的规则、模式和语义,从而生成连贯准确的文本。应用于自然语言处理、机器翻译、文本生成等。
相关文章:
大模型学习
大模型 大规模语言模型(Large Language Model)简称,具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,指具有数百万到数十亿参数的神经网络模型。 优点: 更强大、更准确的模型性能,可面对复杂…...
Redis原理:IntSet
(笔记总结自b站黑马程序员课程) 一、结构 IntSet是Redis中set集合的一种实现方式,基于整数数组来实现,并且具备长度可变、有序等特征。 结构如下: typedef struct intset {uint32_t encoding; //编码方式uint32_t l…...
【已解决】Splunk 8.2.X 升级ES 后红色报警
1: 背景: 由于splunk ES 占有很大的computing resource, 所以,Splunk ES 升级到7.1.1 后,有红色的alert. 2: 解决方法: 降低iowait 的 threshold: Investigation The default threshold setting for IOWait is pre-set to a low value and may not be relevant to the …...
香橙派使用外设驱动库wiringOP 配合定时器来驱动舵机
舵机认识和硬件接线 关于舵机也是使用过很多次了,详见: 使用PWM波控制开发SG90-CSDN博客 同时再次回顾香橙派的物理引脚对应: 所以舵机的VCC接 2,GND接 6,PWM接 7(此处写的是物理引脚编号) Li…...
C++学习笔记--函数重载(2)
文章目录 1.3、Function Templates Handling1.3.1、Template Argument Deduction1.3.2、Template Argument Substitution 1.4、Overload Resolution1.4.1、Candidate functions1.4.2、Viable functions1.4.3、Tiebreakers 1.5、走一遍完整的流程1.6、Name Mangling1.7、总结 1.…...
代码随想录算法训练营Day56 || ● 583. 两个字符串的删除操作 ● 72. 编辑距离
今天接触到了真正的距离,但可以通过增删改操作来逼近。 问题1:583. 两个字符串的删除操作 - 力扣(LeetCode) 给定两个单词 word1 和 word2 ,返回使得 word1 和 word2 相同所需的最小步数。 每步 可以删除任意一个字…...
chrome_elf.dll丢失怎么办?修复chrome_elf.dll文件的方法
Chrome是目前最受欢迎的网络浏览器之一,然而有时用户可能会遇到Chrome_elf.dll丢失的问题。该DLL文件是Chrome浏览器的一个重要组成部分,负责启动和管理程序的各种功能。当Chrome_elf.dll丢失时,用户可能无法正常启动Chrome或执行某些功能。本…...
代码随想录32|738.单调递增的数字,968.监控二叉树,56. 合并区间
738.单调递增的数字 链接地址 class Solution { public:int monotoneIncreasingDigits(int n) {string str to_string(n);int flag str.size();for (int i str.size() - 1; i > 0; i--) {if (str[i] < str[i - 1]) {str[i - 1] - 1;flag i;}}for (int j flag; j <…...
BIO NIO AIO演变
Netty是一个提供异步事件驱动的网络应用框架,用以快速开发高性能、高可靠的网络服务器和客户端程序。Netty简化了网络程序的开发,是很多框架和公司都在使用的技术。 Netty并非横空出世,它是在BIO,NIO,AIO演变中的产物…...
JVM GC垃圾回收
一、GC垃圾回收算法 标记-清除算法 算法分为“标记”和“清除”阶段:标记存活的对象, 统一回收所有未被标记的对象(一般选择这种);也可以反过来,标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象 。它…...
【数据结构】队列知识点总结--定义;基本操作;队列的顺序实现;链式存储;双端队列;循环队列
欢迎各位看官^_^ 目录 1.队列的定义 2.队列的基本操作 2.1初始化队列 2.2判断队列是否为空 2.3判断队列是否已满 2.4入队 2.5出队 2.6完整代码 3.队列的顺序实现 4.队列的链式存储 5.双端队列 6.循环队列 1.队列的定义 队列(Queue)是一种先…...
嵌入式学习之链表
对于链表,要重点掌握链表和数组区别和实现,链表静态添加和动态遍历,链表中pointpoint-next,链表节点个数的查找,以及链表从指定节点后方插入新节点的知识。...
静态代理和动态代理笔记
总体分为: 1.静态代理: 代理类和被代理类需要实现同一个接口.在代理类中初始化被代理类对象.在代理类的方法中调 用被代理类的方法.可以选择性的在该方法执行前后增加功能或者控制访问 2.动态代理: 在程序执行过程中,实用JDK的反射机制,创建代理对象,并动态的指定要…...
[SM6225][Android13]user版本默认允许root和remount
开发平台基本信息 芯片: 高通SM6225版本: Android 13kernel: msm-5.15 问题描述 刚刚从Framework踏入性能的小殿堂,User版本默认是不会开启root权限的,而且一般调试需要设置一下CPU GPU DDR performance模式或者修改一些schedule util等调核调频节点去…...
pyinstaller打包exe,使用wexpect的问题
参考github首先打包wexpect 1.进入wexpect目录执行 pyinstaller __main__.py -n wexpect 会生成dist文件夹 2.python代码A.py中使用wexpect,注意wexpect.spawn前后必须按照下面添加代码 import sys,os,wexpect #spawn前 real_executable sys.executable try:if sy…...
OpenCV(三十三):计算轮廓面积与轮廓长度
1.介绍轮廓面积与轮廓长度 轮廓面积(Contour Area)是指轮廓所包围的区域的总面积。通常情况下,轮廓面积的单位是像素的平方。 轮廓长度(Contour Length)又称周长(Perimeter),表示轮廓…...
9.11作业
实现一个对数组求和的函数,数组通过实参传递给函数 sum0 arr(11 22 33 44 55) Sum() {for i in ${arr[*]}do$((sumi))donereturn $sum } Sum ${arr[*]} var$? echo $var写一个函数,输出当前用户的uid和gid,并使用变量接收结果 Sum() {aid -…...
AI伦理与未来社会:探讨人工智能的道德挑战与机会
引言 引出AI伦理和社会影响的主题,强调AI的快速发展和广泛应用。 概述博客的主要内容:探讨AI的伦理挑战以及它对社会的影响。 第一部分:AI的伦理挑战 算法偏见: 解释什么是算法偏见,以及它为何在AI中成为一个重要问题。…...
Android窗口层级(Window Type)分析
前言 Android的窗口Window分为三种类型: 应用Window,比如Activity、Dialog;子Window,比如PopupWindow;系统Window,比如Toast、系统状态栏、导航栏等等。 应用Window的Z-Ordered最低,就是在系…...
微信小程序基础加强总结
本篇文章给大家带来了关于微信小程序的相关问题,其中主要介绍了一些基础内容,包括了自定义组件、样式隔离、数据、方法和属性等等内容,下面一起来看一下,希望对大家有帮助。 1、自定义组件 1.1、创建组件 在项目的根目录中&…...
【JAVA - List】差集removeAll() 四种方法实现与优化
一、场景: 二、结论: 1. 四种方法耗时 三、代码: 一、场景: 求差集 List1 - Lsit2 二、结论: 1. 四种方法耗时 初始条件方法名方法思路耗时 List1.size319418 List2.size284900 List..removeAll(Lsit2)1036987ms…...
sql注入基本概念
死在山野的风里,活在自由的梦里 sql注入基本概念 MYSQL基本语法union合并查询2个特性:order by 排序三个重要的信息 Sql Server MYSQL 基本语法 登录 mysql -h ip -u user -p pass基本操作 show databases; 查看数据库crea…...
AIGC系列:1.chatgpt可以用来做哪些事情?
上图的意思:神器轩辕剑 那么,在现在AI盛行的信息时代, 你是否知道如何获得和利用ChatGPT这一把轩辕剑来提升你的攻击力和生存能力呢? 故事 程序员小张: 刚毕业,参加工作1年左右,日常工作是C…...
End-to-End Object Detection with Transformers(论文解析)
End-to-End Object Detection with Transformers 摘要介绍相关工作2.1 集合预测2.2 transformer和并行解码2.3 目标检测 3 DETR模型3.1 目标检测集设置预测损失3.2 DETR架构 摘要 我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,…...
生成多样、真实的评论(2019 IEEE International Conference on Big Data )
论文题目(Title):Learning to Generate Diverse and Authentic Reviews via an Encoder-Decoder Model with Transformer and GRU 研究问题(Question):评论生成,由上下文评论->生成评论 研…...
项目中应该使用nginx还是拦截器来封禁IP
项目中应该使用nginx还是拦截器来封禁IP 在项目中,使用 Nginx 或拦截器(例如 Spring Interceptor)来封禁 IP 地址都是可行的方法,具体选择取决于你的需求和项目架构。 Nginx 是一种高性能的 Web 服务器和反向代理服务器…...
SMB 协议详解之-NTLM身份认证
前面的文章说明了SMB协议交互的过程,在SMB交互的Session Setup Request/Response会对请求者的身份进行验证,这其中涉及到两个主要的协议NTLM以及Kerberos,本文将对NTLM协议进行详细的说明。 什么是NTLM NTLM是 NT LAN Manager (NTLM) Authentication Protocol 的缩写,主要…...
day34 Set
概述 Set也是集合Collection接口的子接口 Set也是集合Collection接口的子接口 特点:不保证元素有顺序,数组元素不可以重复 HashSet: 底层是基于HashMap的。元素是无序的。元素不可重复,去重机制是依据hashCode()和equals()方法 LinkedHas…...
数据库_之常用API的使用
数据库_之电商API MySQL C API 使用(基本函数) Mysql C API函数详解 MySQL的常用API 一个常用的程序调用MySQL数据库的时候通常都会调用以下API,下面来逐个分析. mysql_init() //函数原型 MYSQL *STDCALL mysql_init(MYSQL *mysql);这个API主要是用来分…...
CTreeCtrl自绘
CSWTreeCtrl.h) #pragma once#define _OWNER_DRAWN_TREE // 自绘CTreeCtrl,可支持背景图片显示功能class CSWTreeCtrl : public CTreeCtrl {DECLARE_DYNAMIC(CSWTreeCtrl)// 成员私有结构定义// 构造/析构函数 public:CSWTreeCtrl();virtual ~CSWTreeC…...
wordpress无法添加小工具/整站优化价格
GPIO外部中断 文章目录 GPIO外部中断1、GPIO中断介绍2、GPIO中断使用步骤3、软件准备4、硬件准备5、代码实现在前面的文章 ESP32设备驱动-GPIO数字输入与输出中介绍如何对GPIO进行控制操作。本文将在该基础上使用GPIO中断进一步优化按键输入。即演示如何使用GPIO中断。 1、GPI…...
wordpress个性化友情链接页面/网站建设开发公司
上一篇博客:数据类型转换、ASCII编码 目录 算术运算符赋值运算符比较运算符逻辑运算符三元运算符 开始 算术运算符 算数运算符包括: 加法运算,字符串连接运算 - 减法运算 * 乘法运算 / 除法运算 % 取模运算,两…...
国家已明令禁止现货交易/cpu游戏优化加速软件
好的,我会用中文来回答你的问题。 首先,我需要确认一下你问的是否是 Transformer-XL 这个模型?Transformer-XL 是一个在长序列上的自注意力机器翻译模型,它在许多自然语言处理任务中表现出了很好的性能。 如果你是想问如何使用 Transformer-XL,那么首先你需要在 PyTorch 中…...
网站百度知道/google官方下载app
SQL约束1 主键约束添加主键约束删除主键约束2 自动增长列3 非空约束添加非空约束删除非空约束4 唯一约束添加唯一约束删除唯一约束5 默认约束添加默认约束删除默认约束什么是约束 约束, 其实就是一种限制条件, 让你不能超出这个控制范围. 而在数据库中的约束, 就是指 表中的数…...
网站里面的视频功能怎么做/产品营销策略有哪些
作者在开始讲正文之前先对读者做了一个小测验:换一个灯泡需要多少个程序员?(貌似换灯泡跟程序员关系不大),可能有三种答案: 1.根本不需要,因为灯泡根本没坏。 2.仅仅需要一名,但是需要耗费一整…...
深圳网站建设号/网站推广方法
jquery视频播放器jQuery演示代码段可将QuickTime视频播放器动态插入您的网页。 这是带有最少控件的原始视频播放,如果要自定义,可以非常容易地在播放器对象中设置参数。 要使用该代码,请记住更改视频的网址,并且您需要一个id为“ …...