当前位置: 首页 > news >正文

A Survey of Knowledge-Enhanced Pre-trained Language Models

本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。

知识增强的预训练语言模型综述

  • 摘要
  • 1 引言
  • 2 背景
  • 3 KE-PLMs用于NLU
  • 4 KE-PLMs用于NLG
  • 5 未来的方向
    • 5.1 整合来自同质和异质来源的知识
    • 5.2 探索多模态知识
    • 5.3 提供可解释性证据
    • 5.4 持续学习知识
    • 5.5 优化将知识整合到大型模型中的效率
    • 5.6 增加生成的结果的多样性
  • 6 结论

摘要

预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但由于缺乏外部知识,它们仍然存在一些局限性,如推理能力差。研究一直致力于将知识纳入PLM,以解决这些问题。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面的综述,以对这一蓬勃发展的领域提供清晰的见解。我们分别为自然语言理解(NLU)和自然语言生成(NLG)引入了适当的分类法,以突出NLP的这两个主要任务。对于NLU,我们将知识类型分为四类:语言知识、文本知识、知识图谱和规则知识。NLG的KE PLM分为基于KG的方法和基于检索的方法。最后,我们指出了KE PLM的一些有前景的未来方向。

1 引言

2 背景

3 KE-PLMs用于NLU

4 KE-PLMs用于NLG

5 未来的方向

在本节中,我们提出了未来KE PLM的一些可能的研究方向,这些方向可能会解决现有的问题和挑战。

5.1 整合来自同质和异质来源的知识

由于现有的工作大多只利用单一来源的知识,如知识图谱或网络资源,探索如何整合异构来源的知识仍然是未来研究的一个有价值的方向。
正如我们在上一节中所介绍的,一些先前的工作试图结合不同类型的知识来提高问答的性能。例如,UniKQA在知识库中集成了外部知识,包括文本、表和关系三元组。通过将知识库三元组和半结构化表等异构知识源线性化为文本的启发式方法,将知识库中涉及的结构化知识和文本中涉及的非结构化知识统一起来,扩展了外部知识的来源。UDT-QA将知识图谱和表格等结构化知识引入到开放域问答中,并将其转换为线性序列,作为文本生成任务的输入。
在开放域问答领域,提高PLM集成多个知识源的能力可以有效地增加知识覆盖率,使模型能够生成更可靠的答案。

5.2 探索多模态知识

目前的研究大多只关注多模态来源较少的文本知识。事实上,除了文本和列表信息之外,图像、视频和音频也可以成为PLM的知识来源,这可以进一步提高KE PLM的性能。
一些研究探索了整合多模态知识。代表作包括KB-VLP和ERNIE-VIL。KB-VLP基于输入的文本和图像从外部知识库中提取知识信息,并将知识作为额外的输入,以增强模型的语义对齐和知识感知能力。ERNIE-VIL将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,以关注视觉和语言模态之间的详细语义对齐。
由于图像和相关文本包含丰富的语义,注入这些不同的知识模式和对细节语义的关注可以使它们相互补充和增强,这将提高PLM在NLU和NLG任务中的性能。

5.3 提供可解释性证据

尽管许多现有的KE PLM在一系列文本生成任务上取得了巨大成功,但不应忽视的是,如果生成过程需要常识性知识推理,模型的性能将受到影响。
一些工作试图解决这个问题。例如,GRF利用外部知识图谱进行显式常识推理,并结合丰富的结构信息,以便在多个关系路径上执行动态多跳推理。在此过程中获得的推理路径为结果的生成提供了理论基础。这项工作表明,给出一条明确的推理路径将有助于提高模型的可解释性,使预测更加合理。

5.4 持续学习知识

现有工作通常在预训练阶段根据大量静态或未更新的数据进行训练。但模型在面对新任务时可能会忘记以前学到的原始知识,这使它们容易受到一种称为灾难性遗忘问题的现象的影响。随着异质性知识的不断增长,探索使模型在掌握新知识的同时不忘记过去学到的知识的方法,需要不断学习(也称为终身学习)来不断整合各种知识。
ELLE提出了一个维护网络功能的扩展模块,以扩展模型的宽度和深度,使模型能够有效地获取新知识,同时在更大程度上保留旧知识。K-adapter和KB-adapter将适配器添加到PLM中,以存储事实和语言知识,从而不断地将更多的知识融入PLM中。
不断地整合知识是未来研究的一个很有前途的方向。持续和不断增加的预训练的应用将有效地提高PLM的普遍性,并在融入更多知识的同时解决灾难性遗忘问题。

5.5 优化将知识整合到大型模型中的效率

近年来,预训练模型和知识注入的规模越来越大,从而给计算效率和计算资源带来了不可忽视的严峻挑战。尽管现有的大多数工作在各种预训练任务中都取得了良好的效果,但很少有研究提到在此过程中知识融合的成本。
鉴于这一挑战,我们提出以下两个可能的方向,可能值得进一步探索:一是提高知识获取和过滤的效率,二是优化计算负担。
现有的工作,如ZeRO,已经在第二个领域进行了探索。基于传统的数据并行训练模式,ZeRO通过将模型的参数、梯度和优化器状态划分为不同的过程,深度优化冗余空间,消除冗余占用的内存。

5.6 增加生成的结果的多样性

生成替代输出或预测真实情况下的所有可能结果是NLG的一个重要研究方向,这也是生成常识推理任务中输出多样性的目的。现有的工作,如MoKGE,使用常识知识图谱的多样化知识推理来完成NLG的多样化生成。基于对人类注释的观察,将与原始输入相关的概念关联到生成过程中,并使用专家方法的混合生成多样化的合理输出,从而增加生成结果的多样性。

6 结论

在这项调查中,我们从NLU和NLG的角度对KEPLM进行了全面的综述,并分别为NLU和NLG提出了适当的分类法,以突出它们的不同重点。我们还讨论了分类法中的代表作。最后,针对存在的问题和挑战,我们讨论了KE PLMs未来潜在的研究方向,希望能促进这一领域的相关研究。

相关文章:

A Survey of Knowledge-Enhanced Pre-trained Language Models

本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 知识增强的预训练语言模型综述 摘要1 引言2 背景3 KE-PLMs用于NLU4 KE-PLMs用于NLG5 未来的方向5.1 整合来自同质和异质来源的知识5.2 探索多模态知识5.3 提供可…...

动态规划(选择)

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 作为队伍的核心,forever97很受另外两个队友的尊敬。 Trote_w每天都要请forever97吃外卖,但很不幸的是宇宙中心forever97所在的学校周围只有3家forever97爱吃的外卖。 如果T…...

IIS WebDAV配置,https绑定及asp设置

IIS支持标准CGI,因此可以用程序语言针对STDIN和STDOUT开发。 IIS CGI配置和CGI程序FreeBasic, VB6, VC 简单样例_Mongnewer的博客-CSDN博客 IIS支持脚本解释CGI,因此可以用脚本语言针对STDIN和STDOUT开发。 IIS perl python cbrother php脚本语言配置…...

【计算机视觉项目实战】中文场景识别

✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 👨‍&…...

Java 中 Map 初始化的几种方法

# 传统方式 Map<String, String> map new HashMap<>(); map.put("k1", "v1"); map.put("k2", "v2");# java8新特性-双括号初始化 Map<String, String> map1 new HashMap<>() {{put("k1", "v…...

【学习方法论】学习的三种境界、三种习惯、三个要点,三个心态

学习的三种境界、三种习惯、三个要点&#xff0c;三个心态 三种学习境界 苦学 古人云&#xff1a;“头悬梁、锥刺股”&#xff0c;勤学苦练是第一境界。处于这种层次的同学&#xff0c;觉得学习枯燥无味&#xff0c;对他们来说学习是一种被迫行为&#xff0c;体会不到学习中的…...

[管理与领导-67]:IT基层管理者 - 辅助技能 - 4- 职业发展规划 - 评估你与公司的八字是否相合

目录 前言&#xff1a; 一、概述 二、八字相合的步骤 2.1 企业文化是否相合 2.2.1 企业文化对职业选择的意义 2.2.2 个人与企业三观不合的结果 2.2.3 什么样的企业文化的公司不能加入 2.2 公司的发展前景 2.3 公司所处行业发展 2.4 创始人的三观 2.5 创始人与上司的…...

【PMO项目管理】深入了解项目管理 | Stakeholder 利益相关者 | 利益相关者之间的立场差异

&#x1f4ad; 写在前面&#xff1a;本文将带您深入了解项目管理的核心概念和关键要素。我们将从项目管理的基本理解开始&#xff0c;逐步探讨其领域、复杂性和变化的重点&#xff0c;以及项目管理的具体过程。我们还将研究项目的性质以及成功项目所必备的条件。在此过程中&…...

设计模式-原则篇-01.开闭原则

简介 ​ 可以把设计模式理解为一套比较成熟并且成体系的建筑图纸&#xff0c;经过多次编码检验目前看来使用效果还不错的软件设计方案。适用的场景也比较广泛&#xff0c;在使用具体的设计模式之前先要学习软件设计的基础 “软件设计原则”&#xff0c;后面的23个设计模式都是…...

JAVA毕业设计096—基于Java+Springboot+Vue的在线教育系统(源码+数据库+18000字论文)

基于JavaSpringbootVue的在线教育系统(源码数据库18000字论文)096 一、系统介绍 本系统前后端分离 本系统分为管理员、用户两种角色(管理员角色权限可自行分配) 用户功能&#xff1a; 注册、登录、课程预告、在线课程观看、学习资料下载、学习文章预览、个人信息管理、消息…...

windows环境搭建ELK

目录 资源下载&#xff08;8.9.1&#xff09; ES安装、注册、使用 Kibana安装、注册、使用 Logstash安装、注册、使用 Filebeat安装、使用&#xff08;如果只有一个数据流&#xff0c;则不需要使用filebeat&#xff0c;直接上logstash即可&#xff09; 资源下载&#xff0…...

langchain介绍之-Prompt

LangChain 是一个基于语言模型开发应用程序的框架。它使得应用程序具备以下特点&#xff1a;1.数据感知&#xff1a;将语言模型与其他数据源连接起来。2.代理性&#xff1a;允许语言模型与其环境进行交互 LangChain 的主要价值在于&#xff1a;组件&#xff1a;用于处理语言模型…...

汇编语言Nasmide编辑软件

用来编写汇编语言源程序&#xff0c;Windows 记事本并不是一个好工具。同时&#xff0c;在命令行编译源程序也令很多人迷糊。毕竟&#xff0c;很多年轻的朋友都是用着 Windows 成长起来的&#xff0c;他们缺少在 DOS和 UNIX 下工作的经历。 我一直想找一个自己中意的汇编语言编…...

用python开发一个炸金花小游戏

众所周知&#xfeff;扑克牌可谓是居家旅行、桌面交友的必备道具&#xff0c; 今天我们用 Python 来实现一个类似炸金花的扑克牌小游戏&#xff0c;先来看一下基本的游戏规则。 炸&#xff08;诈&#xff09;金花又叫三张牌&#xff0c;是在全国广泛流传的一种民间多人纸牌游戏…...

Uniapp中使用uQRCode二维码跳转小程序页面

下载插件 uQRCode官网地址 引入插件 文件如下 //--------------------------------------------------------------------- // github https://github.com/Sansnn/uQRCode //---------------------------------------------------------------------let uQRCode = {};(functio…...

解决husky在mac下不生效的问题

目录 一、问题 1.1 问题描述 二、解决 2.1 解决 一、问题 1.1 问题描述 本文主要解决的问题是&#xff0c;husky在windows上正常生肖&#xff0c;但放到mac下后不生效的问题&#xff01; 为了确保团队中提交代码的一致性&#xff0c;因此使用了 husky 作为提交的检测工具…...

如何在自动化测试中使用MitmProxy获取数据返回?

背景介绍 当我们在接口或UI自动化项目中&#xff0c;常常会出现这种现象——明明是正常请求&#xff0c;却无法获取到想要的数据返回。 比如&#xff1a; 场景A&#xff1a;页面是动态数据&#xff0c;第一次进入页面获取到的数据&#xff0c;和下次进入页面获取到的数据完全…...

达之云BI平台助力中国融通集团陕西军民服务社有限公司实现数字化运营

中国融通集团陕西军民服务社是一家大型综合类零售购物中心&#xff0c;公司目前管理系统运行了10年左右&#xff0c;面临系统新零售支持发展严重滞后&#xff0c;行业主流应用落地困难&#xff0c;如线上业务、到家业务、全渠道营销、电子发票、自助收银、扫码购、无感停车、未…...

Private market:借助ZK实现的任意计算的trustless交易

1. 引言 Private market&#xff0c;借助zk-SNARKs和以太坊来 隐私且trustlessly selling&#xff1a; 1&#xff09;以太坊地址的私钥&#xff08;ECDSA keypair&#xff09;2&#xff09;EdDSA签名3&#xff09;Groth16 proof&#xff1a;借助递归性来匿名交易Groth16 proo…...

反序列化漏洞复现(typecho)

文章目录 执行phpinfogetshell 执行phpinfo 将下面这段代码复制到一个php文件&#xff0c;命名为typecho_1.0-14.10.10_unserialize_phpinfo.php&#xff0c;代码中定义的类名与typecho中的类相同&#xff0c;是它能识别的类&#xff1a; <?php class Typecho_Feed{const…...

QT设计一个小闹钟

设置一个闹钟&#xff0c;左侧窗口显示当前时间&#xff0c;右侧设置时间&#xff0c;以及控制闹钟的开关&#xff0c;下方显示闹钟响时的提示语。当按启动按钮时&#xff0c;设置时间与闹钟提示语均不可再改变。当点击停止时&#xff0c;关闭闹钟并重新启用设置时间与闹钟提示…...

MybatisPlus(3)

前言&#x1f36d; ❤️❤️❤️SSM专栏更新中&#xff0c;各位大佬觉得写得不错&#xff0c;支持一下&#xff0c;感谢了&#xff01;❤️❤️❤️ Spring Spring MVC MyBatis_冷兮雪的博客-CSDN博客 一、查询投影&#x1f36d; 查询投影是指在查询操作中&#xff0c;只选择…...

安全计算环境技术测评要求项

1.身份鉴别-在应用系统及各类型设备中确认操作者身份的过程&#xff08;身份鉴别和数据保密&#xff09; 1-2/2-3/3-4/4-4 a&#xff09;应对登录的用户进行身份标识和鉴别&#xff0c;身份标识具有唯一性&#xff0c;身份鉴别信息具有复杂度要求并定期更换 b&#xff09;应具有…...

Excel快捷键表

工作表插入新工作表ShiftF11或AltShiftF1移动到工作簿中的下一张工作表CtrlPageDown移动到工作簿中的上一张工作表CtrlPageUp选定当前工作表和下一张工作表ShiftCtrlPageDown取消选定多张工作表Ctrl PageDown选定其他的工作表CtrlPageUp选定当前工作表和上一张工作表ShiftCtrlP…...

Windows Server 系统各版本及授权说明(附下载地址

本文为Windows Server系统各版本差异对比及授权说明。 会对相关目前仍主流使用的相关Windows Server系统版本和相关授权进行对比和功能说明。 WindowsServer2012 R2 Windows Server 2012 R2授权方式是按照物理CPU数量进行授权&#xff0c;比如物理服务器CPU插槽数量2&#xff…...

【智慧工地源码】物联网和传感器技术在智慧工地的应用

物联网&#xff08;IoT&#xff09;和传感器技术在智慧工地中扮演着至关重要的角色。这些技术的应用&#xff0c;使得智慧工地能够实现对施工过程的精确监控、数据收集和分析&#xff0c;以及设备互联&#xff0c;从而提高工程效率、减少成本并改善工人的工作环境。 一、物联网…...

计算机安全学习笔记(IV):基于角色的访问控制 - RBAC

RBAC(Role-Based Access Control)基于用户在系统中设定的角色而不是用户的身份。一般来说&#xff0c;RBAC模型定义角色为组织中的一项工作职责&#xff0c;RBAC系统给角色而不是给单独的用户分配访问权。用户根据他们的职责被静态地或动态地分配给不同的角色。 RBAC模型间的关…...

MFC中的Button修改颜色的方法

添加工具箱下面的MFC Button Control控件&#xff08;不使用普通的Button控件&#xff09;&#xff1b;给按键添加变量&#xff1a;m_MFCButton1&#xff0c;变量类型&#xff08;默认&#xff09;为&#xff1a;CMFCButton&#xff1b;testDlg.cpp中初始化中添加如下代码&…...

【算法】选择排序

选择排序 选择排序代码实现代码优化 排序&#xff1a; 排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 稳定性&#xff1a; 假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&…...

golang之context实用记录

简言 WithCancel()函数接受一个 Context 并返回其子Context和取消函数cancel 新创建协程中传入子Context做参数&#xff0c;且需监控子Context的Done通道&#xff0c;若收到消息&#xff0c;则退出 需要新协程结束时&#xff0c;在外面调用 cancel 函数&#xff0c;即会往子C…...

国外做电子元器件在哪个网站/seo和sem

随着2021年高考的结束&#xff0c;想必考生们肯定很想知道2021高考成绩公布时间是什么时候&#xff0c;为了方便大家&#xff0c;一起来看看吧!下面给大家分享关于2021年甘肃高考成绩公布时间最新&#xff0c;欢迎阅读!2021年甘肃高考成绩公布时间&#xff1a;高考评卷分别在兰…...

无锡找做网站公司/竞价推广价格

1.急性心肌梗死有意义的心肌标记物是&#xff08;&#xff09; A.谷丙转氨酶 B.肌酸激酶 C.淀粉酶 D.转肽酶 E.碱性磷酸酶 2.下列哪项不是右心衰竭的体征&#xff08;&#xff09; A.肝大 B.胸水 C.腹水 D.颈静脉怒张 E.肝颈静脉回流征阳性 3.右心衰竭可能的症状不包括&…...

网站建设总体需求分析/网站seo哪里做的好

【本周总结】 1.学习了js红宝书的第四章&#xff1a;基本类型和引用类型的值、执行环境、垃圾收集 2.总结了js红宝书前三章内容 3.学习了ps的一些工具&#xff1a;油漆桶工具、橡皮擦工具、修饰工具、选框工具、套索工具、快速选择工具组、直方图和明暗调整、图层和调整图层 4…...

做一家算命的网站/海外短视频软件

现在工作中很少使用原生的sql了&#xff0c;大多数的时候都在使用EF。刚开始的时候&#xff0c;只是在注重功能的实现&#xff0c;最近一段时间在做服务端接口开发。开发的时候也是像之前一样&#xff0c;键盘噼里啪啦的一顿敲&#xff0c;接口秒秒钟上线&#xff0c;但是到联调…...

浦口做网站价格/香港seo公司

Git 为什么要用图形客户端 提示 下述工具下载链接为官方或github地址&#xff0c;可能会由于你懂得的原因&#xff0c;而无法打开。 Git 大部分工作在命令行模式下都可以顺利且高效的完成&#xff0c; 但在代码合并&#xff0c;代码差异浏览方面图形客户端无疑有着非常大的优势…...

婚纱影楼网站免费源码/广告投放数据分析

VUE作为一个常用的前端框架&#xff0c;虽然支持自定义&#xff0c;但是作为一个懒人程序员&#xff0c;在学习过程中都会使用大家通用的语言来完成我们的程序&#xff0c;方便我们的交流语言就应该是合规的&#xff0c;下面分享一下vue-cli工程中的目录作用&#xff0c;方便我…...