自然语言处理、大语言模型相关名词整理
自然语言处理相关名词整理
- 零样本学习(zero-shot learning)
- 词嵌入(Embedding)
- 为什么 Embedding 搜索比基于词频搜索效果好?
- Word2Vec
- Transformer
- 检索增强生成(RAG)
- 幻觉
- 采样
- 温度
- Top-k
- Top-p
- 奖励模型
- 提示词(prompt)
- 微调
- Text-to-SQL(Text2SQL)
零样本学习(zero-shot learning)
零样本学习(Zero-shot learning)是一种机器学习方法,其目标是在没有样本示例的情况下,通过将新的类别或任务与已知的类别或任务相关联,来进行分类或执行其他任务。在传统的监督学习中,模型在训练阶段需要大量标记数据来学习不同类别之间的特征和模式。然而,在零样本学习中,模型被要求处理未见过的类别或任务,而不需要事先见过这些类别的训练样本。
零样本学习通常依赖于将类别之间的语义关系纳入模型的训练中,例如使用自然语言处理中的词向量模型(如Word2Vec、GloVe等)来表示类别之间的语义相似性。通过将这种语义信息与视觉特征相结合,可以帮助模型在没有见过新类别的情况下进行推断和泛化。
零样本学习的应用包括自然语言处理中的零样本文本分类、计算机视觉中的零样本图像识别等。这种方法的发展对于解决实际问题中遇到的数据稀缺或类别不平衡等挑战具有重要意义。
词嵌入(Embedding)
Embedding 是将离散的非结构化数据转换为连续的向量表示的技术。
在自然语言处理中,Embedding 常常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,使得文本数据能够在计算机中被更好地处理和理解。通过 Embedding,每个单词或句子都可以用一个实数向量来表示,这个向量中包含了该单词或句子的语义信息。这样,相似的单词或句子就会在嵌入空间中被映射为相近的向量,具有相似语义的词语或句子在向量空间上的距离也会较近。这使得在进行自然语言处理任务时,可以通过计算向量之间的距离或相似度来进行词语或句子的匹配、分类、聚类等操作。
为什么 Embedding 搜索比基于词频搜索效果好?
基于词频搜索的传统算法包括如 TF-IDF、BM25。词频搜索只考虑了词语在文本中的频率,而忽略了词语之间的语义关系。而 Embedding 搜索通过将每个词语映射到一个向量空间中的向量表示,可以捕捉到词语之间的语义关系。因此,当搜索时,可以通过计算词语之间的相似度来更准确地匹配相关的文本。
使用基于词频的搜索方法,如果我们查询 “cat”,那么结果中可能会将包含 “cat” 词频较高的文章排在前面。但是这种方法无法考虑到 “cat” 与其他动物的语义关系,比如与 “British Shorthair(英国短毛猫)”、“Ragdoll(布偶猫)” 等相似的动物。而使用 Embedding 搜索方法,可以将单词映射到高维空间中的向量,使得语义相似的单词在空间中距离较近。当我们查询 “cat” 时,Embedding 搜索可以找到与 “cat” 语义相似的单词,如 “British Shorthair”、“Ragdoll” 等,并将这些相关文章排在结果的前面。这样就能提供更准确、相关性更高的搜索结果。
Word2Vec
Word2Vec是一种用于将单词表示为连续向量空间中的密集向量的技术。在训练Word2Vec模型时,通过优化模型的参数,使得在向量空间中相似的单词具有相似的向量表示。这样,词向量之间的距离可以反映出单词之间的语义相似性。
Transformer
Transformer 是一种基于自注意力机制(self-attention)的神经网络模型,最早在 2017 年由 Google 的研究员提出并应用于自然语言处理任务。它能够对输入句子中不同位置的单词关系进行建模,从而更好地捕捉上下文信息。
检索增强生成(RAG)
检索增强生成(Retrieval Augmented Generation, RAG)是一种技术,它通过从数据源中检索信息来辅助大语言模型(Large Language Model, LLM)生成答案。简而言之,RAG 结合了搜索技术和大语言模型的提示词功能,即向模型提出问题,并以搜索算法找到的信息作为背景上下文,这些查询和检索到的上下文信息都会被整合进发送给大语言模型的提示中。
幻觉
幻觉问题是指生成的语言模型(Language Model)产生的输出与实际事实不符合,或者在特定上下文中缺乏准确性和一致性的现象。这些问题可能由于多种因素导致,包括模型的数据偏见、训练数据中的错误、模型的局限性等。
幻觉问题可能表现为以下一些情况:
- 错误的事实陈述:模型生成的语言可能包含错误的事实陈述,与真实世界中的情况不符。
- 语义模糊:模型生成的语言可能存在模糊的语义表达,导致理解困难或产生歧义。
- 不一致性:在相同的上下文中,模型可能产生不一致的输出,或者在类似的情境下提供不同的答案。
- 偏见性:模型可能会反映其训练数据中存在的偏见,导致生成的文本具有性别、种族、地域等方面的偏见。
- 不合逻辑:生成的文本可能缺乏逻辑性,包含自相矛盾的内容或不合理的推理。
采样
在自然语言处理中,"采样"通常指的是从模型的输出分布中随机选择一个元素或样本的过程。在生成式模型中,尤其是语言模型,采样通常用于从模型生成的概率分布中选择下一个单词或标记。
在语言模型中,生成的文本通常由一个词序列组成。每个词在给定前面词序列的条件下,都有一个对应的条件概率分布。采样过程就是根据这个概率分布从候选词汇中选择下一个词。
常见的采样方法包括:
- 贪婪采样(Greedy Sampling):直接选择具有最高概率的词作为下一个词。这种方法简单直接,但可能导致模型生成重复、无意义或不连贯的文本。
- 随机采样(Random Sampling):根据每个词的概率分布,随机选择一个词作为下一个词。这种方法使得生成的文本更加多样化,但可能会导致一些稀有词被选择的机会较小。
- 温度采样(Temperature Sampling):通过调整温度参数,可以控制采样过程中的随机性。较高的温度会使得模型更加随机地选择词,而较低的温度会使得模型更加倾向于选择概率较高的词。
- 核心词采样(Nucleus Sampling):根据累积概率分布,从一组最高概率的词中随机选择一个词。这种方法可以平衡生成文本的多样性和概率高的词的选择。
采样方法的选择取决于应用场景和需求。贪婪采样适用于速度要求较高、多样性要求不高的情况;随机采样适用于希望生成多样化文本的场景;温度采样和核心词采样则提供了在多样性和概率控制之间的平衡。
温度
通过调整温度参数,可以控制采样过程中的随机性。较高的温度会使得模型更加随机地选择词,而较低的温度会使得模型更加倾向于选择概率较高的词。
Top-k
它是基于随机采样的一种改进,旨在增加生成文本的多样性和可控性。
在Top-K采样中,首先根据模型预测的概率分布对词汇表中的单词进行排序,然后选择排名在前K个位置的单词作为候选集。接下来,根据这K个单词的概率分布进行随机采样,选择其中一个单词作为下一个生成的单词。换句话说,Top-K采样通过限制候选集合来平衡了生成文本的多样性和概率的控制。
与传统的随机采样相比,Top-K采样的优点在于:
- 控制多样性:Top-K采样通过限制候选单词集合,可以在一定程度上控制生成文本的多样性,使得生成的文本更加丰富和多样。
- 减少噪声:相比于完全随机的采样,Top-K采样通过选择概率较高的候选单词,可以降低生成文本中的噪声和不连贯性。
- 可预测性:Top-K采样可以通过调整参数K来控制采样的行为,使得生成文本的结果更加可预测和可控。
在实际应用中,Top-K采样常常与其他采样技术结合使用,如温度采样(Temperature Sampling)或核心词采样(Nucleus Sampling),以达到更好的效果。
Top-p
Top-p 采样(也称为核心采样)允许更动态地选择要从中采样的值。
在 Top-p 采样中,模型按概率降序对最可能的下一个值求和,并在总和达到 p 时停止。只有在这个累积概率范围内的值才会被考虑。语言模型中常见的 Top-p(核心)采样值通常介于 0.9 到 0.95 之间。
例如,Top-p 值为 0.9 意味着模型将考虑累积概率超过 90% 的最小的一组值。
假设所有词元的概率如下图所示。如果 top_p=90%,那么只有 “yes” 和 “maybe” 会被考虑,因为它们的累积概率大于 90%。如果 top_p=99%,那么将考虑 “yes”、“maybe” 和 “no”。
奖励模型
是指在强化学习中,用于描述和计算行为的奖励值的模型。在强化学习中,智能体(Agent))通过不断地与环境进行交互,从中获得一定的奖励值。
奖励模型可以描述和计算每一次交互中智能体获得的奖励值,并且根据这些奖励值,智能体可以学习到如何更好地进行决策,从而获得更高的累积奖励值。
奖励模型是强化学习中的一个重要概念,它直接影响智能体的学习效果和行为表现。好的奖励模型能够帮助智能体更快、更准确地完成任务。但如果奖励模型不合理或存在偏差,将会导致智能体学习出错误的行为或无法学习出有效的行为。因此,设计合理的奖励模型是强化学习中的一个重要挑战。
提示词(prompt)
提示词通常指的是一种文本输入方式,用于引导模型生成符合特定要求或意图的文本。这种输入方式通常通过在模型输入的开头提供一些关键词或短语,以指示模型在生成文本时应该遵循的方向或主题。
提示词在LLM中可以与其他输入方式(如上下文信息、条件信息等)结合使用,以更精确地引导模型生成期望的文本输出。通过合理设计和使用提示词,可以提高LLM生成文本的准确性、一致性和可控性。
微调
微调模型是指在已经训练好的机器学习模型的基础上,通过少量的新数据或调整模型的参数,来对模型进行进一步的训练以适应特定任务或数据集。
微调模型的优点在于可以充分利用预训练模型在大规模数据上学到的通用特征,并通过少量数据的微调,使得模型更好地适应特定任务或数据集。这种方法通常能够带来更好的性能和更快的训练速度,尤其适用于数据量较小的情况下。
Text-to-SQL(Text2SQL)
把文本转化为 SQL 语言,更学术一点的定义是:把数据库领域下的自然语言(Natural Language,简写为 NL)问题,转化为在关系型数据库中可以执行的结构化查询语言(Structured Query Language,简写为 SQL)。
相关文章:
自然语言处理、大语言模型相关名词整理
自然语言处理相关名词整理 零样本学习(zero-shot learning)词嵌入(Embedding)为什么 Embedding 搜索比基于词频搜索效果好? Word2VecTransformer检索增强生成(RAG)幻觉采样温度Top-kTop-p奖励模…...
移动开发避坑指南——内存泄漏
在日常编写代码时难免会遇到各种各样的问题和坑,这些问题可能会影响我们的开发效率和代码质量,因此我们需要不断总结和学习,以避免这些问题的出现。接下来我们将围绕移动开发中常见问题做出总结,以提高大家的开发质量。本系列文章…...
太好玩了,我用 Python 做了一个 ChatGPT 机器人
毫无疑问,ChatGPT 已经是当下编程圈最火的话题之一,它不仅能够回答各类问题,甚至还能执行代码! 或者是变成一只猫 因为它实在是太好玩,我使用Python将ChatGPT改造,可以实现在命令行或者Python代码中调用。…...
STM32存储左右互搏 SDIO总线读写SD/MicroSD/TF卡
STM32存储左右互搏 SDIO总线读写SD/MicroSD/TF卡 SD/MicroSD/TF卡是基于FLASH的一种常见非易失存储单元,由接口协议电路和FLASH构成。市面上由不同尺寸和不同容量的卡,手机领域用的TF卡实际就是MicroSD卡,尺寸比SD卡小,而电路和协…...
累积分布函数图(CDF)的介绍、matlab的CDF图绘制方法(附源代码)
在对比如下两个误差的时候,怎么直观地分辨出来谁的误差更低一点?: 通过这种误差时序图往往不容易看出来。 但是如果使用CDF图像,以误差绝对值作为横轴,以横轴所示误差对应的累积概率为纵轴,绘制曲线图&am…...
代码随想录算法训练营第四十一天|343.整数拆分、96不同的二叉搜索树
文档链接:https://programmercarl.com/ LeetCode343.整数拆分 题目链接:https://leetcode.cn/problems/integer-break/ 思路: j * (i - j) 是单纯的把整数拆分为两个数相乘,而j * dp[i - j]是拆分成两个以及两个以上的个数相乘…...
全量知识系统 程序详细设计之 统一资产模型(QA-SmartChat)
Q1. 下面我们聊聊整个全知系统的设计 的矩阵和函数,矩阵表示的是“活物”,分别 类似 一个基因的活性、一个实体的辨识度和某种特征的可区分度。 函数的可微、可积和可导性 则表示 运动的控制方式 在全知系统设计中,矩阵和函数是两个核心的组…...
已解决org.springframework.web.client.HttpClientErrorException: 400异常的正确解决方法,亲测有效!!!
已解决org.springframework.web.client.HttpClientErrorException: 400异常的正确解决方法,亲测有效!!! 文章目录 问题分析 报错原因 解决思路 解决方法 总结 在日常开发过程中,通过Spring框架提供的RestTemplat…...
内网渗透-Windows内网渗透
内网渗透-Windows内网渗透 文章目录 内网渗透-Windows内网渗透前言一、信息收集 1.1、SPN1.2、端口连接1.3、配置文件1.4、用户信息1.6、会话收集1.7、凭据收集 navicat:SecureCRT:Xshell:WinSCP:VNC: 1.8、DPAPI1.9、域信任1.10、…...
机器人方向控制中应用的磁阻角度传感芯片
磁阻传感器提供的输出信号几乎不受磁场变动、磁温度系数、磁传感器距离与位置变动影响,可以达到高准确度与高效能,因此相当适合各种要求严格的车用电子与工业控制的应用。所以它远比采用其它传感方法的器件更具有优势。 机器人的应用日渐广泛࿰…...
如何在树莓派安装Nginx并实现固定公网域名访问本地静态站点
文章目录 1. Nginx安装2. 安装cpolar3.配置域名访问Nginx4. 固定域名访问5. 配置静态站点 安装 Nginx(发音为“engine-x”)可以将您的树莓派变成一个强大的 Web 服务器,可以用于托管网站或 Web 应用程序。相比其他 Web 服务器,Ngi…...
Ubuntu与主机windows共享文件夹
一、创建共享文件夹: 虚拟机->设置->选项->共享文件夹->总是启用->选择本地的共享文件夹(如E:\Share)->确定。 二、设置挂载: 首先赋予/etc/fstab文件可编辑的权限; sudo chmod 777 /…...
(四)C++自制植物大战僵尸游戏启动流程
植物大战僵尸游戏开发教程专栏地址http://t.csdnimg.cn/ErelL 一、启动方式 鼠标左键单机VS2022上方工具栏中绿色三角按钮(本地Windows调试器)进行项目启动。第一次启动项目需要编译项目中所有代码文件,编译生成需要一定的时间。不同性能的电…...
华为的AI战略地图上,才不是只有大模型
图片来源:pixabay© 钛媒体ToB深水区 图片来源:pixabay 大模型火热了一年,现在还没做AI化改造的企业,就像是工业革命浪潮伊始与火车赛跑的那辆马车。 最早的蒸汽火车缓慢又笨重,甚至铁轨上还预留了马匹行走的空…...
采用C#.Net +JavaScript 开发的云LIS系统源码 二级医院应用案例有演示
采用C#.Net JavaScript 开发的云LIS系统源码 二级医院应用案例有演示 一、系统简介 云LIS是为区域医疗提供临床实验室信息服务的计算机应用程序,可协助区域内所有临床实验室相互协调并完成日常检验工作,对区域内的检验数据进行集中管理和共享࿰…...
Vue3(三):生命周期、路由、自定义hooks
这里终于明白了为什么一直有这个语法报错,就是在提示你哪里错的地方上方注释一行/*eslint-disable*/,之前一直警告这个错误感谢老师! 一、vue2和vue3生命周期 还有一个问题就是父组件和子组件哪个先挂载完毕呢?答案是子组件先挂…...
UE4_导入内容_骨架网格体
FBX 导入支持 骨架网格体(Skeletal Mesh) 。这提供了一种简化的处理流程来将有动画的网格体从 3D应用程序中导入到虚幻引擎内,以便在游戏中使用。除了导入网格体外,如果需要,动画和变形目标都可以使用FBX格式 在同一文…...
第十五届蓝桥杯c++b组赛后复盘和真题展示
题目变成八道了,分数一百分可能,感觉拿奖难度还是很高 第一题是一个简单的握手问题 答案算出来1204,纯手写 第二题是 物理题 纯蒙,随便猜了个轨迹,答案具体忘了,最后是 .45 第三题暴力 第四题 我是傻逼…...
代码随想录 二叉树—二叉搜索树中的搜索
思路:当节点为空或者等于目标值,直接返回。由于是二叉搜索树,特点是左子树的值都小于根节点值,右子树的值均大于根节点,那么,左右子树的构建可以通过值的判断来递归调用。 c题解: /*** Defini…...
⑤-1 学习PID--什么是PID
PID 算法可以用于温度控制、水位控制、飞行姿态控制等领域。后面我们通过PID 控制电机进行说明。 自动控制系统 在直流有刷电机的基础驱动中,如果电机负载不变,我们只要设置固定的占空比(电压),电机的速度就会稳定在…...
【OTA】STM32-OTA升级——持续更新
【OTA】STM32-OTA升级——持续更新 文章目录 前言一、ymodem串口协议1、Ymodem 协议2、PC3、蓝牙4、WIFI云平台 二、UDS车载协议1.UDS协议 总结 前言 提示:以下是本篇文章正文内容,下面案例可供参考 一、ymodem串口协议 1、Ymodem 协议 STM32 Ymodem …...
java 字符集
ASCII 与 GBK ASCII:英文专用GBK:中文专用 万国码 unicode想要统一这个世界上所有的语言,所以创造了UTF-32但是使用32位,也就是4个字节,对于很多语言来说,过于奢侈,也会造成通信效率和存储效率变低 UTF-8 unicode 创造…...
Alibaba --- 如何写好 Prompt ?
如何写好 Prompt 提示工程(Prompt Engineering)是一项通过优化提示词(Prompt)和生成策略,从而获得更好的模型返回结果的工程技术。总体而言,其实现逻辑如下: (注:示例图…...
用html写一个雨的特效
<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>雨特效</title><link rel"stylesheet" href"./style.css"> </head> <body> <div id"wrap-textu…...
前端 接口返回来的照片太大 加载慢如何解决
现象 解决 1. 添加图片懒加载 背景图懒加载 对背景图懒加载做的解释 和图片懒加载不同,背景图懒加载需要使用 v-lazy:background-image,值设置为背景图片的地址,需要注意的是必须声明容器高度。 <div v-for"img in imageList&quo…...
003 传参
文章目录 传参http 状态码传参方式(1)URL请求参数 key 与 方法中的形参名一致(2)URL请求参数 key与RequestParam("id") 中的别名一致(3) 形参是POJO类,URL 参数 key 与pojo类的 set方…...
QT写Windows按键输出(外挂)
一、前言 玩游戏的时候遇到些枯燥无味反反复复的按鼠标键盘的情况时,就想写个外挂自动释放。刚好在学qt所以试验了下QT能不能对外输出按键与鼠标。 二、思路 qt中的按键鼠标全是输入,没有直接对外输出键盘鼠标指令的类,但是我们换个思路&…...
Stable Diffusion之文生图模型训练
1、数据准备 提前准备好一组相关的照片。 在线的图片处理网站 BIRME - Bulk Image Resizing Made Easy 2.0 (Online & Free) 将图片转成统一大小,支持批量处理,效率高 2、生成提示词 进入stable diffusion webui页面 旧版直接使用 train/proproc…...
SpringBoot整合支付宝沙箱支付
环境说明:SpringBoot3.0.2 支付宝沙箱地址:沙箱地址 获取配置信息 因支付需要回调地址,回调地址必须是公网,如果有公网的话,那直接在下面配置文件填写自己的公网,没有的话,就需要我们借助第三…...
探索进程控制第一弹(进程终止、进程等待)
文章目录 进程创建初识fork函数fork函数返回值fork常规用法fork调用失败的原因 写时拷贝进程终止进程终止是在做什么?进程终止的情况代码跑完,结果正确/不正确代码异常终止 如何终止 进程等待概述进程等待方法wait方法waitpid 进程创建 初识fork函数 在…...
淘宝网站是谁做的好/搜索引擎优化的各种方法
Pytorch框架学习记录9——非线性激活 1. ReLU函数介绍 torch.nn.ReLU(inplaceFalse) 参数 inplace- 可以选择就地执行操作。默认:False 形状: 输入:( * ), 在哪里**表示任意数量的维度。输出:( * ),与输入…...
湖南网站建设/各城市首轮感染高峰期预测
Swift标准库可以编译安卓armv7的内核,这使得可以在安卓移动设备上执行Swift语句代码。本文解释了如何在你的安卓手机上运行一个简单的“hello,world”程序。如果你遇到了任何问题,请参考下面的说明,上传BUG到 https://bugs.swift.…...
网站建设的空间是什么意思/广告商对接平台
Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个IT公司。Elasticsearch 是由 Elastic 公司创建并开源维护的。它的开源代码位于 https://github.com/elastic/elasticsearch。同时,Elastic 公司也拥有 Logstash 及 Kibana 开源项目。这个三个开源…...
绍兴公司做网站/附近电脑培训班零基础
H5是JS封装的工具集合,通过H5我们就可以使用JS的方式去调用到我们手机端上的一些原生的组件。 http://dev.dcloud.net.cn/mui/ http://dev.dcloud.net.cn/mui/ui/ 开发过微信小程序或者说Bootstrap,那么使用起来是非常的简单和方便。 http://ask.dcloud.…...
张家港高端网站建设公司/临安网站seo
轻量级网络之GhostNet前言动机Ghost模块G-bneckGhostNet网络结构实验性能消融实验Ghost模块 pytorch代码欢迎交流,禁止转载!!前言 《GhostNet: More Features from Cheap Operations》 论文地址:GhostNet: More Features from Ch…...
部队网站怎么做/互联网营销师培训大纲
概要 python简历 Python[1] (英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 Pyth…...