当前位置: 首页 > news >正文

自然语言处理的分类

动动发财的小手,点个赞吧!

alt

简介

作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述,并分析该领域的最新趋势。

本文[1]中,我们研究以下问题:

  • NLP 研究哪些不同的研究领域?
  • NLP 研究文献的特点和随时间的发展是什么?
  • NLP目前的趋势和未来工作的方向是什么?

尽管 NLP 的大多数研究领域都是众所周知的和明确的,但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此,了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题,但它们往往差异很大,而且往往要么太宽泛,要么太专业。因此,我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念,但它涵盖了广泛的最受欢迎的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在 NLP 分类中被多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。

该分类法作为一种总体分类方案,其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其子主题。为了分析 NLP 的最新发展,我们训练了一个弱监督模型,根据 NLP 分类法对 ACL Anthology 论文进行分类。

NLP的不同研究领域

以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。

多模态

多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据(例如表格或图表)的系统。

自然语言接口

自然语言接口可以基于自然语言查询处理数据,通常实现为问答系统或对话系统。

语义文本处理

这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中,语义文本表示通常以嵌入的形式学习,可用于比较语义搜索设置中文本的语义相似度。此外,可以合并知识表示(例如以知识图的形式)来改进各种 NLP 任务。

情绪分析

情感分析试图从文本中识别和提取主观信息。通常,研究的重点是从文本中提取观点、情感或极性。最近,基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法,因为它旨在预测文本中给定方面或实体的情感极性。

句法文本处理

这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分,或者纠正语法和拼写方面的错误文本。

语言学与认知 NLP

语言学与认知 NLP 处理自然语言的基础是这样的假设:我们的语言能力牢牢植根于我们的认知能力,意义本质上是概念化,语法是由用法决定的。目前存在许多不同的语言理论,它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式,特别是计算或数学形式对人类认知过程进行建模和模拟。

推理

推理使机器能够使用演绎和归纳等技术,根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题,自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设,而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。

多语言能力

多语言处理涉及多种自然语言的所有类型的 NLP 任务,并且通常在机器翻译中进行研究。此外,语码转换可以在单个句子内或句子之间自由交换多种语言,而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

信息检索

信息检索涉及从大型集合中查找满足信息需求的文本。通常,这涉及检索文档或段落。

信息提取与文本挖掘

该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别,而主题建模旨在发现文档集合中的潜在主题,通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要,其中在更小的空间中包含输入的关键点,并将重复保持在最低限度。此外,信息提取和文本挖掘领域的研究还包括命名实体识别,处理命名实体的识别和分类,共指解析,旨在识别对同一实体的所有引用话语、术语提取,旨在提取相关术语,例如关键字或关键短语、关系提取,旨在提取实体之间的关系,以及开放信息提取,以促进关系元组的领域独立发现。

文本生成

文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在释义中,以不同的表面形式呈现文本输入,同时保留语义,问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案,或对话响应生成,旨在生成与提示相关的自然外观文本。然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(例如表格或图表)生成文本 、图像或视频的字幕,或将语音波形转录为文本的语音识别。

NLP的特点和发展

alt

考虑到 NLP 方面的文献,我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年,但每年出版物的数量增长缓慢,直到 2000 年。相应地,2000 年至 2017 年间,出版物数量大约翻了两番,而在随后的五年中,又翻了一番。因此,我们观察到 NLP 研究的数量呈近指数增长,表明研究界的关注日益增加。

alt

检查上图,揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关,但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而,自 2018 年以来,该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究,但其发展却部分停滞。相比之下,对话系统和对话代理,尤其是低资源 NLP,研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展,我们观察到整体略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。

NLP 的最新趋势

alt

上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成:总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎,我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是 NLP 所必需的研究领域,但已经相对成熟。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景,但总体论文数量较少,难以预测其进一步发展,因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。

从图中可以看出,目前最受关注的是语言模型。根据该领域的最新发展,这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列,但仅显示出边际增长。从长远来看,它们可能会被增长更快的领域取代,成为最受欢迎的研究领域。

一般来说,与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,例如绿色和可持续的NLP、低资源NLP和道德NLP,总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。

在推理领域,特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中,可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小,但它们显然吸引了研究界越来越多的兴趣,并表现出明显的积极增长趋势。

总结

为了总结最近的发展并概述 NLP 的前景,我们定义了研究领域的分类并分析了最近的研究进展。

我们的研究结果表明,已经研究了大量的研究领域,包括多模态、负责任和值得信赖的 NLP 以及自然语言界面等趋势领域。我们希望本文能够对当前 NLP 领域提供有用的概述,并可以作为更深入探索该领域的起点。

Reference

[1]

Source: https://towardsdatascience.com/a-taxonomy-of-natural-language-processing-dfc790cb4c01

本文由 mdnice 多平台发布

相关文章:

自然语言处理的分类

动动发财的小手,点个赞吧! 简介 作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。…...

Flutter笔记:手写并发布一个人机滑动验证码插件

Flutter笔记 手写一个人机滑块验证码 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/133529459 写 Flut…...

RabbitMQ安装与简单使用

安装 下载资源 可以访问官网查看下载信息rabbitmq官网 选择合适的版本,注意:rabbitmq需要下载一个Erlang才能使用 我自己是在一下两个连接中下载的 rabbitmq 3.8.8 erlang 21.3.8.15 需要下载其他版本的同学注意erlang版本是否匹配,可以访…...

不做静态化,当部署到服务器上的项目刷新出现404【已解决】

当线上项目刷新出现404页面解决方法: 在nginx配置里加入这样一段代码 try_files $uri $uri/ /index.html; 它的作用是尝试按照给定的顺序访问文件 变量解释 try_files 固定语法 $uri 指代home文件(ip地址后面的路径,假如是127.0.0.1/index/a.png&…...

SpringBoot结合Redisson实现分布式锁

🧑‍💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:Sp…...

css字体属性

一、CSS字体属性用于设置文本的字体样式。以下是常用的CSS字体属性: font-family:设置文本的字体系列,可以使用多个字体,用逗号分隔。font-size:设置文本的字体大小,可用像素、百分比、em等单位。font-wei…...

云原生微服务治理 第四章 Spring Cloud Netflix 服务注册/发现组件Eureka

系列文章目录 第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 文章目录 系列文章目录[TOC](文章目录) 前言1、Eureka 两大组件2、Eureka 服务注册与发现3、案例3.1、创建主工程3.1.1、主…...

【白细胞介素6(IL-6)】

## IL-6,至关重要的多功能细胞因子 ## 聊一聊白细胞介素6(IL-6) ## 简述:国内外IL-6 _ IL-6R在研药物一览_药智新闻.2017 ## 研究项目|靶向IL-6药物在研现状 2021...

设计模式之抽象工厂模式--创建一系列相关对象的艺术(简单工厂、工厂方法、到抽象工厂的进化过程,类图NS图)

目录 概述概念适用场景结构类图 衍化过程业务需求基本的数据访问程序工厂方法实现数据访问程序抽象工厂实现数据访问程序简单工厂改进抽象工厂使用反射抽象工厂反射配置文件衍化过程总结 常见问题总结 概述 概念 抽象工厂模式是一种创建型设计模式,它提供了一种将相…...

大数据-玩转数据-Flink SQL编程实战 (热门商品TOP N)

一、需求描述 每隔30min 统计最近 1hour的热门商品 top3, 并把统计的结果写入到mysql中。 二、需求分析 1.统计每个商品的点击量, 开窗2.分组窗口分组3.over窗口 三、需求实现 3.1、创建数据源示例 input/UserBehavior.csv 543462,1715,1464116,pv,1511658000 662867,22…...

python中实现定时任务的几种方案

目录 while True: sleep()Timeloop库threading.Timersched模块schedule模块APScheduler框架Celery框架数据流工具Apache Airflow概述Airflow 核心概念Airflow 的架构 总结以下几种方案实现定时任务,可根据不同需求去使用不同方案。 while True: sleep() 利用whil…...

AcWing算法提高课-5.6.1同余方程

宣传一下 算法提高课整理 CSDN个人主页:更好的阅读体验 原题链接 题目描述 求关于 x x x 的同余方程 a x ≡ 1 ( m o d b ) ax ≡ 1 \pmod b ax≡1(modb) 的最小正整数解。 输入格式 输入只有一行,包含两个正整数 a , b a,b a,b,用一…...

Docker Tutorial

什么是Docker 为每个应用提供完全隔离的运行环境 Dockerfile, Image,Container Image: 相当于虚拟机的快照(snapshot)里面包含了我们需要部署的应用程序以及替它所关联的所有库。通过image,我们可以创建很…...

平面图—简单应用

平面图:若一个图𝐺能画在平面𝑆上,且使𝐺的边仅在端点处相交,则称图𝐺为可嵌入平面𝑆,𝐺称为可平面图,简称为平面图。 欧拉公式:设有…...

安装JDK(Java SE Development Kit)超详细教程

文章时间 : 2023-10-04 1. 下载地址 直接去下载地址:https://www.oracle.com/java/technologies/downloads/ (需要翻墙,不想翻墙或者不想注册oracel账号的,直接去我的阿里云盘) 阿里云盘:http…...

KUKA机器人通过3点法设置工作台基坐标系的具体方法

KUKA机器人通过3点法设置工作台基坐标系的具体方法 具体方法和步骤可参考以下内容: 进入主菜单界面,依次选择“投入运行”—“测量”—基坐标,选择“3点法”, 在系统弹出的基坐标编辑界面,给基座标编号为3,命名为table1,然后单击“继续”按钮,进行下一步操作, 在弹出的…...

以太网的MAC层

以太网的MAC层 一、硬件地址 ​ 局域网中,硬件地址又称物理地址或MAC地址(因为用在MAC帧),它是局域网上每一台计算机中固化在适配器的ROM中的地址。 ​ 关于地址问题,有这样的定义:“名字指出我们所要寻…...

Hadoop启动后jps发现没有DateNode解决办法

多次使用 Hadoop namenode -format 格式化节点后DateNode丢失 找到hadoop配置文件core-site.xml查找tmp路径 进入该路径,使用rm -rf data删除data文件 再次使用Hadoop namenode -format 格式化后jps后出现DateNode节点...

VUE3照本宣科——应用实例API与setup

VUE3照本宣科——应用实例API与setup 前言一、应用实例API1.createApp()2.app.use()3.app.mount() 二、setup 前言 👨‍💻👨‍🌾📝记录学习成果,以便温故而知新 “VUE3照本宣科”是指照着中文官网和菜鸟教…...

json/js对象的key有什么区别?

1.对于JS对象来说 一个js对象如果是这样的 obj {"0": "小明","0name": "小明明", "": 18,"¥": "哈哈"," ": "爱好广泛" }对于js对象来说,有时候key是不…...

极大似然估计概念的理解——统计学习方法

目录 1.最大似然估计的概念的理解1 2.最大似然估计的概念的理解2 3.最大似然估计的概念的理解3 4.例子 1.最大似然估计的概念的理解1 最大似然估计是一种概率论在统计学上的概念,是参数估计的一种方法。给定观测数据来评估模型参数。也就是模型已知,参…...

python模拟表格任意输入位置

在表格里输入数值,要任意位置,我找到了好方法: input输入 1. 行 2. 列输入:1 excel每行输入文字input输入位置 3.2 表示输入位置在:3行个列是要实现一个类似于 Excel 表格的输入功能,并且希望能够指定输入…...

如何限制文件只能通过USB打印机打印,限制打印次数和时限并且无法在打印前查看或编辑内容

在今天这个高度信息化的时代,文档打印已经成为日常工作中不可或缺的一部分。然而,这也带来了诸多安全风险,如文档被篡改、知识产权被侵犯以及信息泄露等。为了解决这些问题,只印应运而生。作为一款独特的软件工具,只印…...

车牌文本检测与识别:License Plate Recognition Based On Multi-Angle View Model

论文作者:Dat Tran-Anh,Khanh Linh Tran,Hoai-Nam Vu 作者单位:Thuyloi University;Posts and Telecommunications Institute of Technology 论文链接:http://arxiv.org/abs/2309.12972v1 内容简介: 1)方向&#x…...

Blender中的4种视图着色模式

Blender中有四种主要的视图着色模式:线框、实体、Look Dev和渲染。它们的主要区别如下: - 线框模式只显示物体的边缘(线框),可以让您看到场景中的所有物体,也可以调整线框的颜色和背景的颜色。 - 实…...

Flutter项目安装到Android手机一直显示在assembledebug

问题 Flutter项目安装到Android手机一直显示在assembledebug 原因 网络不好,gradle依赖下载不下来 解决方案 修改如下的文件 gradle-wrapper.properties 使用腾讯提供的gradle镜像下载 distributionUrlhttps://mirrors.cloud.tencent.com/gradle/gradle-7.5…...

数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】

一、分箱平滑的原理 (1)分箱方法 在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中。 常见的有两种分箱方法:等深分箱和等宽分箱。 等深分箱:按记录数进行分箱&#xff0…...

Vue2 第一次学习

本章为超级浓缩版,文章过于短,方便复习使用哦~ 文章目录 1. 简单引入 vue.js2. 指令2.1 事件绑定指令 v-on (简写 )2.2 内容渲染指令2.3 双向绑定指令 v-model2.4 属性绑定指令 v-bind (简写 : )2.5 条件渲染指令2.6 循环指令 v-for 3. vue 其他知识3.1 侦听器 watch3.2 计算属…...

tiny模式基本原理整合

【Tiny模式】的基本构成 M【首头在首位】 U【/】 V【HTTP/】 Host H【真实ip】 XH \r回车 \n换行 \t制表 \ 空格 一个基本的模式构成 [method] [uri] [version]\r\nHost: [host]\r\n[method] [uri] [version]\r\nHost: [host]\r\n 检测顺序 http M H XH 有些地区 XH H M 我这边…...

使用聚氨酯密封件的好处?

聚氨酯密封件因其优异的耐用性、灵活性和广泛的应用范围而在各个行业中广受欢迎。在本文中,我们将探讨使用聚氨酯密封件的优点,阐明其在许多不同领域广泛使用背后的原因。 1、高性能: 聚氨酯密封件具有出色的性能特征,使其成为各…...

asp网站如何虚拟发布/广告公司收费价格表

转载:http://meigesir.iteye.com/blog/1856503 当我们原来系统中有ubuntu的时候,如果我们重装或安装新的windows系统时,会发现ubuntu系统启动菜单不见啦,我们重现安装ubuntu系统也可以解决这个问题,但是我们以前在ubun…...

网站建设流程中哪些部分比较重要/推广接单平台哪个好

RabbitMQ在Erlang node(节点)上 Erlang天生具有集群特性,非常好搭建集群,每一个节点(node)上具有一个叫erlang.Cookie的东西,也是一个标识符,可以互认。 1)、n台Linux的防…...

网站开发的成品/域名注册阿里云

希尔排序的实质就是分组插入排序,该方法又称缩小增量排序,因DL.Shell于1959年提出而得名。 该方法的基本思想是:先将整个待排元素序列分割成若干个子序列(由相隔某个“增量”的元素组成的)分别进行直接插入…...

工商网站做企业公示/抖音seo怎么做的

删除 ctrl d 删除光标所在位置上的字符相当于VIM里x或者dl ctrl h 删除光标所在位置前的字符相当于VIM里hx或者dh ctrl k 删除光标后面所有字符相当于VIM里d shift$ ctrl u 删除光标前面所有字符相当于VIM里d shift^ ctrl w 删除光标前一个单词相当于VIM里db ctrl y 恢复…...

网站开发时间段/seo范畴有哪些

[深入Python]sys.modules Python中所有加载到内存的模块都放在sys.modules。当import一个模块时首先会在这个列表中查找是否已经加载了此模块,如果加载了则只是将模块的名字加入到正在调用import的模块的Local名字空间中。如果没有加载则从sys.path目录中按照模块名…...

江苏州 网站制作/网站维护一般怎么做

一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形。 用matplotlib生成基本图形非常简单,只需要几行代码,但要创建复杂的图表,需要调用更多的命令和反复试验,这要求用户对matplotlib有深入的认…...