DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下:
书籍及参考资料链接
第一章节
从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence)的主要技术途径之一。
1.1 语言模型的发展历程
- 1.1.1 统计语言模型
对语言序列进行建模,但是对于高阶统计语言模型来说,随着阶数n的增加,需要统计的转移概率项数会呈指数级增加,导致“维数灾难”。 - 神经语言模型(Neural Lannguage Model,NLM)
以RNN、LSTM、GRU等为代表的神经网络模型,在这一时期,出现了分布式词表示这一概念,并构建了基于聚合上下文特征的目标词预测函数,分布式词表示使用低维稠密向量来表示词含义,与稀疏词向量(one-hot)表示有着本质区别,稀疏词向量表示能够刻画更为丰富的隐含语义特征。
稠密向量的非零表征对于复杂语言模型的搭建非常友好,能够有效克服统计语言模型中数据稀疏的问题。,分布式词向量又被称为词嵌入,word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。
从上图可以看出,语言模型逐渐越来越火热。
- 1.1.2 预训练语言模型(Pre-trained Language Model)
在这一时期代表是 ELMo模型,该模型使用大量无标注数据训练双向LSTM网络,预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示,这与word2vec学习固定的词表示有着显著不同,ELMo还可以根据下游任务对模型进行微调,但是传统序列神经网络的长文本建模能力较弱,并且不容易训练,因此早期ELMo性能表现并不惊艳。
在这之后,2017年Google提出了Self-attention的Transformer模型,通过自注意力机制建模长程序列关系,Transformer的设计适合并行计算,不在向RNN,LSTM那样是单向计算,基于Transformer架构,谷歌进一步提出了预训练模型BERT,BERT采用了仅编码器的结构,于此同时,GPT-1采用了仅解码器的Transformer架构,从而确立了“预训练-微调”这一任务求解范式。一般来说,仅编码器结构的模型更适合用于文本理解,文本摘要生成等任务,而解码器结构模型更适合去解决文本生成任务。 - 1.1.3 大语言模型
与小规模预训练模型不同的是,大语言模型的文本生成能力更强,也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展,新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务数据的微调进行通用任务的求解。
1.2 大语言模型的特点
- 具备丰富的世界知识
- 具有较强的通用任务解决能力
随着模型参数、训练数据、计算算力的大规模扩展,最新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务
数据的微调进行通用任务的求解。 - 具有较好的复杂任务推理能力
- 具有较强的人类指令遵循能力
- 具有较好的人类对齐能力
目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。 - 具有可拓展的工具使用能力
虽然大语言模型,在一些领域的能力表现较差,但是大语言模型的理解能力和上下文学习能力,可以使得大模型借助网络搜索和计算器,python解释器等工具,来更好的解决这些领域问题。
1.3 大语言模型关键技术概览
1.规模不断扩展,数据、算力、模型参数量都在逐渐变大,但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。
2.数据质量不断提升,追求更多高质量的数据,以及各类任务的配比训练。
3.高校预训练,很多机构都发布了专用的分布式优化框架,其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM
4.能力激发
5.人类对齐,让大模型输出符合人类偏好的数据,对人类无害的信息。
对此Open-ai提出了RLHF对齐方法,最近学术界开始涌现除了一批使用监督微调的对齐方式,从而简化RLHF的优化过程算法,如DPO算法等。
6.让大模型使用工具
1.4 大语言模型对科技发展的影响
一些传统领域的研究,已经逐渐被大模型取代,而转向为如何提升大模型的领域能力和综合能力。在信息检索领域,出现了较火的RAG和大模型增强的搜索系统,同时大语言模型对科技发展也在产生着非常重要的影响。
第二章节
2.1 大语言模型的涌现能力和扩展法则
主要讨论了大模型的涌现能力和扩展法则,在这方面有大量的研究,但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现,就像小孩子的语言学习,会突然说出令爸妈惊讶的话来。
这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性,到目前为止,还没有实验能够有效验证特定参数规模语言模型的饱和数据规模(即随着数据规模的扩展,模型性能不再提升)
代表的涌现能力:
- 上下文学习
- 指令遵循
- 逐步推理
2.2 GPT的发展脉络
- GPT-1: GPT-1与同时期的BERT不同,GPT-1采用的是仅解码器的模型,但在当时与BERT参数量相当的GPT模型性能不如BERT模型,因此没有引起学术界的足够关注。
- GPT-2:沿用了GPT-1架构,但是扩大了参数规模,达到了1.5B
- GPT-3: 与GPT-2相比,GPT-3直接将参数规模提升了100余倍,对于模型扩展在当时给出了一个极限尝试,其雄心、魄力可见一斑。,GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑,它证明了将神经网络扩展到超大规模可以带来大幅的
模型性能提升,并且建立了以提示学习方法为基础技术路线的任务求解范式。 - 后续能力增强上,增加了代码训练数据和人类对齐,增强的模型被称为GPT-3.5
- 后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用
第五章节
首先介绍大语言模型的架构配置:
5.1 Transformer模型
Transformer是由多层的多头自注意力(Multi-headSelf-attention)模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于Transformer 本身的结构与配置改变并不大。
5.1.1 输入编码
首先将输入的词元序列转换成 嵌入编码 + 位置编码的形式(公式如下),再送入到后续的神经网路中进行训练。
通过这种建模方法的表示,Transformer 模型可以利用位置编码 𝒑𝑡 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定,因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息,然而它只能局限于建模训练样本中出现的位置,无法建模训练数据中未出现过的位置,因此极大地限制了它们处理长文本的能力。
5.1.2 多头注意力机制
5.1.3 归一化方法
第五章还有许多部分,没有完全理解…待更新。。。。。。
相关文章:

DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下: 书籍及参考资料链接 第一章节 从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence&…...

【设计模式】掌握建造者模式:如何优雅地解决复杂对象创建难题?
概述 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 分离了部件的构造(由Builder来负责)和装配(由Director负责)。 从而可以构造出复杂的对象。这个模式适用于:某个对象的构建过程复杂的情况。 由于实现了构建和装配的解耦。…...

Nuxt.js 全栈开发指南:构建现代 Web 应用的终极解决方案
一、Nuxt.js 的核心价值与演进 1.1 现代 Web 开发的挑战与破局 根据 2023 年 Web Almanac 统计,全球 Top 1000 网站中有 68% 采用服务端渲染方案。Nuxt.js 作为 Vue 生态的 SSR 框架,完美解决了以下痛点: SEO 困境:传统 SPA 的…...

PPT内视频播放无法播放的原因及解决办法
PPT内视频无法播放,通常是视频编解码的问题。目前我遇到的常见的视频编码格式有H.264,H.265,VP9,AV1这4种。H.264编解码的视频,Windows原生系统可以直接播放,其他的视频编码格式需要安装对应的视频编解码插…...

关于ModbusTCP/RTU协议转Ethernet/IP(CIP)协议的方案
IGT-DSER智能网关模块支持西门子、倍福(BECKHOFF)、罗克韦尔AB,以及三菱、欧姆龙等各种品牌的PLC之间通讯,支持Ethernet/IP(CIP)、Profinet(S7),以及FINS、MC等工业自动化常用协议,同时也支持PLC与Modbus协议的工业机器人、智能仪…...

为什么要开源?
互联网各领域资料分享专区(不定期更新): Sheet 正文 开源(Open Source)是软件、硬件或知识产品将其源代码或设计公开,允许任何人自由使用、修改和分发的模式。开源的核心不仅是“免费”,更是一种协作和透明的理念。以下是开源的主要动因和优势: 一、技术驱动:提升质量…...

WPF在特定领域的应用:打造一款专业的图像编辑工具
WPF在特定领域的应用:打造一款专业的图像编辑工具 一、前言二、WPF 基础概念2.1 什么是 WPF2.2 WPF 的核心特性 三、图像编辑工具的需求分析3.1 基本功能3.2 高级功能 四、使用 WPF 实现图像编辑工具4.1 项目搭建4.2 图像加载与显示4.3 基本编辑操作4.4 图层管理4.5…...
从0开始的操作系统手搓教程43——实现一个简单的shell
目录 添加 read 系统调用,获取键盘输入 :sys_read putchar和clear 上班:实现一个简单的shell 测试上电 我们下面来实现一个简单的shell 添加 read 系统调用,获取键盘输入 :sys_read /* Read count bytes from the file pointed to by fi…...

Visual Studio Code(VS Code)支持的编程语言
JavaScript:VS Code 原生支持 JavaScript,提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查。 TypeScript:作为 JavaScript 的超集,TypeScript 在 VS Code 中也得到原生支持…...

探索AI对冲基金:开源自动化交易系统的革新之路
在量化交易领域,人工智能技术的应用正悄然改变传统对冲基金的运作模式。GitHub上的开源项目ai-hedge-fund为开发者和金融从业者提供了一个独特的实践平台。该项目通过多智能体系统架构,整合市场数据分析、量化策略生成、风险管理和投资组合优化等核心功能,实现了从数据采集到…...

C语言每日一练——day_3(快速上手C语言)
引言 针对初学者,每日练习几个题,快速上手C语言。第三天。(会连续更新) 采用在线OJ的形式 什么是在线OJ? 在线判题系统(英语:Online Judge,缩写OJ)是一种在编程竞赛中用…...

vue3中接收props的两种写法
在 Vue 3 中,接收 props 有两种主要的写法,分别是运行时声明和基于类型的声明。下面为你详细介绍这两种写法。 1. 运行时声明 运行时声明是 Vue 2 中就已经存在的方式,在 Vue 3 中依然可以使用。这种方式通过在组件中使用 defineProps 宏来…...

Django下防御Race Condition
目录 漏洞原因 环境搭建 复现 A.无锁无事务时的竞争攻击 B.无锁有事务时的竞争攻击 防御 A.悲观锁加事务防御 B.乐观锁加事务防御 总结 漏洞原因 Race Condition 发生在多个执行实体(如线程、进程)同时访问共享资源时,由于执行顺序…...

Vue 项目中,.env文件怎么用?
在 Vue 项目中,.env 文件用于存储环境变量,不同的环境(如开发环境、测试环境、生产环境)可以使用不同的 .env 文件来管理对应的配置信息。以下是关于 Vue 项目中 .env 文件的详细使用方法: 1. 项目创建 确保你已经使…...
LeetCode hot 100—爬楼梯
题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1. 1 阶 1 阶 2. 2 阶 示例…...

【js逆向】
地址:aHR0cHM6Ly93d3cud2VpYm90b3AuY24vMi4wLw f12进入 debugger,过debugger 查看预览数据 全局搜索 请求网址中的 api.weibotop.cn 在下方疑似找到了加密和解密的函数 断点调试 控制台输出 那个n就是 常见的 cryptoJs库 const cryptoJs require(cry…...

论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位(中国)
论文英文题目:A spatial interaction model of Qin-Han Dynasty organisation on the northern frontier and the location of the Zhidao highway (China) 发表于:journal of archaeological science,影响因子:3.030 论文主要是…...

DirectX12(D3D12)基础教程四 入门指南
本章主要讲了些D3D12概念和理论,对第一、二章相关概念的补充和纠正,要的理解D3D12概念和理论基础,结合代码加深理解。 命令队列和命令列表 为了实现渲染工作的重用和多线程缩放, 在 D3D12 中,做了三个重要方面不同于 …...

C语言:确定进制
题目: 6942对于十进制来说是错误的,但是对于13进制来说是正确的。即, 6(13) 9(13) 42(13), 而 42(13)4131213054(10)。 任务是写一段程序,读入三个整数p、q和 r,然后确定一个进制 B(2<B<40) 使得 p q r。 如果…...

如何在 Windows 10 启用卓越性能模式及不同电源计划对比
在使用 powercfg -duplicatescheme 命令启用 “卓越性能模式”(即 Ultimate Performance 模式)之前,有几个前提条件需要注意: 前提条件: 系统版本要求:卓越性能模式 仅在 Windows 10 专业版 或更高版本&a…...

Unity Android出包
Unity Android出包 1.Android Studio版本 不能高于Unity的版本 2.so库 这个库需要自己拷贝到Android工程当中 3.JDK版本太老 编译可以正常,但无法运行 File->ProjectStructure->SDK Location->Gradle Setting->Gradle JDK->X:/Android Stuido/jre …...

Day04 模拟原生开发app过程 Androidstudio+逍遥模拟器
1、用Androidstudio打开已经写好了的music项目 2、逍遥模拟器打开apk后缀文件 3、在源文件搜索关键字 以后的测试中做资产收集...

2025人工智能AI新突破:PINN内嵌物理神经网络火了
最近在淘金的时候发现基于物理信息的神经网络(简称PINN)也是个研究热点,遂研读了几篇经典论文,深觉这也是个好发论文的方向,所以火速整理了一些个人认为很值得一读的PINN论文和同学们分享。 为了方面同学们更好地理解…...

通义万相 2.1 携手蓝耘云平台:开启影视广告创意新纪元
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...

【计算机网络】深入解析 HTTP 请求中的 header 类型:Cookie 的概念、特点和应用场景:登录和用户认证
网络原理— HTTP 请求“报头”(header) Cookie 是什么 HTTP报头中的Cookie,用大白话来说,就像你去餐厅吃饭时拿到的一张会员卡: 初次访问 (清除该网站的所有 Cookie 后重新访问该网站,效果相同): 当你第一次访问一个网…...

LeetCode 解题思路 11(Hot 100)
解题思路: 若相等: 直接返回 true。若当前元素大于目标值: 由于列递增,当前列下方所有元素均大于目标值,故排除该列(向左移动)。若当前元素小于目标值: 由于行递增,当前…...

警惕AI神话破灭:深度解析大模型缺陷与禁用场景指南
摘要 当前AI大模型虽展现强大能力,但其本质缺陷可能引发系统性风险。本文从认知鸿沟、数据困境、伦理雷区、技术瓶颈四大维度剖析大模型局限性,揭示医疗诊断、法律决策等8类禁用场景,提出可信AI建设框架与用户防护策略。通过理论分析与实操案…...

文件系统调用(上) ─── linux第17课
目录 linux 中man 2和man 3的区别 文件内容介绍 C语言文件接口 示例: 输出信息到显示器,你有哪些方法 总结: 系统文件I/O 文件类的系统调用接口介绍 示例 open 函数具体使用哪个,和具体应用场景相关, write read close lseek ,类比C文件相关接…...

go 标准库包学习笔记
本博文包含了go的math,net/http,fmt,io,csv,time.Time,strconv,strings,sync.Pool的学习,笔记多是其实战如何用,而非简单的函数式的讲解,可谓是收藏佳作,不时翻翻。 文章目录 1、math2、net/http3、fmt4、…...

Unity摄像机跟随物体
功能描述 实现摄像机跟随物体,并使物体始终保持在画面中心位置。 实现步骤 创建脚本:在Unity中创建一个新的C#脚本,命名为CameraFollow。 代码如下: using UnityEngine;public class CameraFollow : MonoBehaviour {public Tran…...