从 ChatGPT 爆火回溯 NLP 技术
ChatGPT 火遍了全网,多个话题频频登上热搜。见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。
GPT 模型是一种 NLP 模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。而 NLP 技术是人工智能领域的重要研究分支,被视为人工智能皇冠上的明珠。图灵测试的假设就是针对自然语言处理技术而设计的。本质上说,自然语言处理技术就是为了让计算机理解人类语言。
NLP 技术其实由来已久
从 1940 年代 Warren Weaver 提出机器翻译的思想以来,NLP 经历了 70 多年的发展,从技术的角度大致可分为三个阶段:
NLP 1.0:基于规则的 NLP,即按照提前设定好的规则,进行自然语言理解;
NLP 2.0:基于统计学的 NLP,即根据语料库中对应搭配出现的概率大小来做出自然语言的理解;
NLP 3.0:基于深度学习的 NLP,利用深度学习技术,构建类似“人脑”的神经网络,能够像人脑一样理解自然语言。
NLP 技术可分为自然语言生成(NLG)和自然语言理解(NLU)两部分。NLG 会使用计算机创建人类语言文本,如 ChatGPT。NLU 会录入文本,理解上下文和意图,然后生成智能回复,如 Siri。
NLP 基本任务
从实践的角度讲,NLP 领域绝大多数任务都可以归结为下面的四大任务当中:
(1)序列标注:最基础的自然语言处理任务,包括分词、词性标注、命名实体识别等。总的来说,一切需要将每个单词/单字都给出一个类别的任务都可以归结为这一类。这一类任务是 NLP 中最典型的任务,也是很多其他任务的上游任务。典型的如中文自然语言处理,由于中文的 token 是汉字,而最小语素是由一个或多个汉字构成的词语,这就需要对中文文本进行分词。分词过程就是典型的序列标注任务。
(2)文本分类(聚类):分类任务是机器学习领域的基础性任务,文本分类也是常见的自然语言处理任务,旨在将不同长度的文本最终归纳到某个类别当中,典型如文本分类、文本聚类、情感识别、情感计算等等都可以归于此。从某种角度说,序列标注任务也是一种连续进行的分类任务。
(3)关系判断:关系判断用于判断两个句子的某种关系。该类任务的场景繁杂,简单的如文本相似度识别、文本关联识别,复杂的如机器阅读理解,机器问答、语义改写等等都可以划分为此类。
(4)生成任务:生成任务用于在输入某个文本内容后,根据需要自动生成另一段文字。典型的如机器翻译,文本摘要、文本扩充等等。
此外,还有一些如机器阅读理解、关系提取、推理等任务,可以视为以上四类任务的复杂组合和变体。
日常生活中,垃圾邮件过滤程序、拼写检查程序、语法检查程序、自动更正、语言翻译、情感分析、语义搜索等都属于 NLP 。基于 Transformer 架构的新深度学习(DL)方法的出现,为 NLP 技术的性能和功能带来了革命性的变化。现在,先进的 NLP 模型已成为现代搜索引擎、语音助手和聊天机器人的核心。这些应用程序在自动处理日常订单、路由查询和回答常见问题时也变得日益纯熟。
NLP 现实用例
| 初创公司
自然语言处理应用在过去十年呈爆炸式增长,因为由 GPU 驱动的递归神经网络的改进提供了性能更好的人工智能。这使得初创公司得以提供语音服务、语言教师和聊天机器人等服务。
| 医疗健康
医疗健康面临的困难之一是难以获得。打医生办公室电话并一直等待的情况十分常见,与索赔代表联系可能同样困难。通过实施 NLP 来训练聊天机器人是医疗健康行业的一项新兴技术,可以解决医疗专业人员的短缺问题,并开创与患者的沟通渠道。
NLP 的另一个重要的医疗健康应用程序是生物医学文本挖掘(通常称为 BioNLP)。鉴于生物文献数量众多,以及生物医学出版速度不断提高,自然语言处理是一个关键的工具,可以在已发表的研究中提取信息,推动生物医学领域的知识进步。这非常有助于药物研发和疾病诊断。
| 金融服务
NLP 是为金融服务公司构建更好的聊天机器人和 AI 助理的关键组成部分。在众多用于基于 NLP 的应用程序的语言模型中,BERT 已成为机器学习领域 NLP 的领军者及语言模型。例如,银行可以使用 NLP 来评估信用记录很少或没有信用记录的客户信誉。
| 零售
除了医疗健康外,聊天机器人技术还常用于零售应用程序,能够准确分析客户查询,并生成回复或建议。这可简化客户流程,并提高商店运营效率。NLP 还用于文本挖掘客户反馈和情感分析。
技术只有实际应用才有价值。ChatGPT 的出现,让更多人看到了以 NLP 为代表的人工智能技术的无限可能。作为将科技创新视为第一驱动力的高新技术企业,思腾合力将加大相关技术研发力度,持续探索人工智能在千行百业的海量应用场景。
相关文章:
从 ChatGPT 爆火回溯 NLP 技术
ChatGPT 火遍了全网,多个话题频频登上热搜。见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。GPT 模型是一种 NLP 模型,使用多层变换器(Transformer)来预测下一个单词的概率分…...
面了 6 家大厂,并拿下 5 家 offer,进大厂好像也没有那么困难吧....
前言 二月份的时候因为换工作的缘故,陆续参加了华为、蚂蚁、字节跳动、PDD、百度、Paypal 的社招面试,除了字节跳动流程较长,我主动结束面试以外,其他的都顺利拿到了 Offer。 最近时间稍微宽裕点了,写个面经…...
四、Spring对IoC的实现
1.IoC 控制反转 控制反转是一种思想。控制反转是为了降低程序耦合度,提高程序扩展力,达到OCP原则,达到DIP原则。控制反转,反转的是什么? 将对象的创建权利交出去,交给第三方容器负责。将对象和对象之间关系…...
Java语言如何求平方根
问题 在编程时,会遇到求平方根的问题,本次问题讲到如何使用Java来求解平方根。 方法 使用java.lang.Math类的sqrt(double)方法求平方根。Math是java.lang包中的类,所以就可以直接使用这个类。Double为对象中的基本类型。例如求正整数16的平方…...
C++20中的span容器
一.span容器 span 是 C20 中引入的一个新的标准容器,它用于表示连续的一段内存区间,类似于一个轻量级的只读数组容器。 span 是一个轻量级的非拥有式容器,它提供了对连续内存的引用。 span 的主要用途是作为函数参数,可以避免不…...
codeforces周赛div3#855记录
目录 总结 一,A. Is It a Cat? 二,B. Count the Number of Pairs 三,C1. Powering the Hero (easy version) 四,C2. Powering the Hero (hard version) 总结 真羡慕ACM校队的同学,能AC七八题,甚至ak …...
2022年考研结果已出,你上岸了吗?
官方公布:2022年考研人数为457万。 2月20号左右,全国考研分数已经陆续公布,现在已经过去一周左右的时间了,你上岸了吗,还是在等调剂,或者已经知道落榜不知道何去何从? 考研的热潮在近几年席卷…...
2023 工业互联网平台:智慧制硅厂 Web SCADA 生产线
我国目前是全球最大的工业硅生产国、消费国和贸易国,且未来该产业的主要增量也将来源于我国。绿色低碳发展已成为全球大趋势和国际社会的共识,随着我国“双碳”目标的推进,光伏产业链快速发展,在光伏装机需求的带动下,…...
6-2 SpringCloud快速开发入门:声明式服务消费 Feign实现消费者
声明式服务消费 Feign实现消费者 使用 Feign实现消费者,我们通过下面步骤进行: 第一步:创建普通 Spring Boot工程 第二步:添加依赖 <dependencies><!--SpringCloud 集成 eureka 客户端的起步依赖--><dependency>…...
Git-学习笔记01【Git简介及安装使用】
Java后端 学习路线 笔记汇总表【黑马-传智播客】Git-学习笔记01【Git简介及安装使用】Git-学习笔记02【Git连接远程仓库】Git-学习笔记03【Git分支】目录 01-git的历史 02-git和svn的对比 03-git的安装 04-向本地仓库中添加文件 05-修改文件内容并提交 06-删除本地仓库中…...
【Python】控制自己的手机拍照,并自动发送到邮箱
前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 今天这个案例,就是控制自己的摄像头拍照, 并且把拍下来的照片,通过邮件发到自己的邮箱里。 想完成今天的这个案例,只要记住一个重点:你需要一个摄像头 思路…...
八股文(二)
一、 实现深拷贝和浅拷贝 1.深拷贝 function checkType(any) {return Object.prototype.toString.call(any).slice(8, -1) }//判断拷贝的要进行深拷贝的是数组还是对象,是数组的话进行数组拷贝,对象的话进行对象拷贝 //如果获得的数据是可遍历的&#…...
在CANoe/CANalyzer中观察CAN Message报文的周期Cycle
案例背景: 该篇博文将告诉您,如何直观的,图示化的,查看CAN网络中各CAN Message报文的周期变化。 优质博文推荐阅读(单击下方链接,即可跳转): Vector工具链 CAN Matrix DBC CAN M…...
Linux命令·ls
ls命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。 通过ls 命令不仅可以查看linux文件夹包含的文件而且可以查看文件权限(包括目录、文件夹、文件权限)查看目录信息…...
Mysql InnoDB 存储引擎笔记
1 存储引擎 简介 Mysql 存储引擎有多种:包括 MyISAM、InnoDB 和 Memory。 其中MyISAM 和 INNODB 的区别: 事务安全(MyISAM不支持事务,INNODB支持事务);外键 MyISAM 不支持外键, INNODB支持外…...
智慧工地AI视频分析系统 opencv
智慧工地AI视频分析系统通过pythonopencv网络模型图像识别技术,智慧工地AI视频分析算法自动识别现场人员穿戴是否合规。本算法模型中用到opencv技术,OpenCV基于C实现,同时提供python, Ruby, Matlab等语言的接口。OpenCV-Python是OpenCV的Pyth…...
小红书「高效达人筛选攻略」
三八女神节降临,诸多品牌纷纷开启铺垫预热,在各大平台借势宣传。而聚集庞大年轻女性消费群体的小红书,对“她营销”的重要性不言而喻。节点序幕拉开,面对海量达人信息,如何提前积草屯粮、高效备战? 本期千瓜…...
大话数据结构-线性表
1 定义 线性表是零个或多个数据元素的有限序列。 2 抽象数据类型 ADT 线性表(List)Data:线性表的数据对象集合为{al,a2,a3,....an},每个元素的类型均为DataType。其中,除第一个元素a1外,每一个元素有且只有一个直接前驱元素&…...
分布式缓存 Memcached Linux 系统安装
1.Memcached简介 Memcached是一个开源、高性能,将数据分布于内存中并使用key-value存储结构的缓存系统。它通过在内存中缓存数据来减少向数据库的频繁访问连接的次数,可以提高动态、数据库驱动之类网站的运行速度。 Memcached在使用是比较简单的&#…...
【数据结构】链表:看我如何顺藤摸瓜
👑专栏内容:数据结构⛪个人主页:子夜的星的主页💕座右铭:日拱一卒,功不唐捐 文章目录一、前言二、链表1、定义2、单链表Ⅰ、新建一个节点Ⅱ、内存泄漏Ⅲ、插入一个节点Ⅳ、销毁所有节点Ⅴ、反转一个链表3、…...
linux shell 入门学习笔记18 函数开发
概念 函数就是将你需要执行的shell命令组合起来,组成一个函数体。一个完整的函数包括函数头和函数体,其中函数名就是函数的名字。 优点 将相同的程序,定义,封装为一个函数,能减少程序的代码数量,提高开发…...
如何最巧妙回答HR面试“送命题”:你为什么离开上家公司?
一 HR面试存在“送命题”? 一个资深HR朋友聊到,他最近pass掉一个名校高材生。 其实洽谈过程还比较愉悦,小姑娘名校毕业,落落大方,薪酬要求比较合理,各方面都比较符合,最后就在决定要录用时,HR朋友随口问了句 “你为什么离开上家公司?”,小姑娘也是随口说了句“我不喜…...
注意力机制详解系列(五):分支与时间注意力机制
👨💻作者简介: 大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享,公众号:GoAI的学习小屋,免费分享书籍、简历、导图等资料&…...
创宇盾重保经验分享,看政府、央企如何防护?
三月重保已经迫近,留给我们的准备时间越来越少,综合近两年三月重保经验及数据总结,知道创宇用实际案例的防护效果说话,深入解析为何创宇盾可以在历次重保中保持“零事故”成绩,受到众多部委、政府、央企/国企客户的青睐…...
软件测试面试汇总
在浏览器中输入 URL,回车后发生了什么? 在浏览器中输入URL并按下回车键后,大致流程如下: 1、浏览器解析 URL,提取出协议(例如HTTP、HTTPS)、主机名和路径等信息。 2、浏览器查找该URL的缓存记录࿰…...
空指针,野指针
空指针在C/C中,空指针(null pointer)是指向内存地址0的指针变量。NULL在C/C中的定义为:#ifndef NULL#ifdef __cplusplus#define NULL 0#else#define NULL ((void *)0)#endif #endif从上面的代码定义中,我们可以发现在C…...
Mysql Nested-Loop Join算法和MRR
MySQL8之前仅支持一种join 算法—— nested loop,在 MySQL8 中推出了一种新的算法 hash join,比 nested loop 更加高效。(后面有时间介绍这种join算法) 1、mysql驱动表与被驱动表及join优化 先了解在join连接时哪个表是驱动表&a…...
Spark 广播/累加
Spark 广播/累加广播变量普通变量广播分布式数据集广播克制 Shuffle强制广播配置项Join Hintsbroadcast累加器Spark 提供了两类共享变量:广播变量(Broadcast variables)/累加器(Accumulators) 广播变量 创建广播变量…...
飞天云动,站在下一个商业时代的门口
ChatGPT的爆火让AIGC再度成为热词,随之而来的是对其商业化的畅想——不是ChatGPT自身如何盈利,而是它乃至整个AIGC能给现在的商业环境带来多大改变。 这不由得令人想起另一个同样旨在改变世界的概念,元宇宙。不同的是,元宇宙更侧…...
上海分时电价机制调整对储能项目的影响分析
安科瑞 耿敏花 2022年12月16日,上海市发改委发布《关于进一步完善我市分时电价机制有关事项的通知》(沪发改价管〔2022〕50号)。通知明确上海分时电价机制,一般工商业及其他两部制、大工业两部制用电夏季(7、8、9月)和冬季&#x…...
天津网站建设 文率科技/怎么弄推广广告
0. 前言 听了实验室6位老师的讲座之后,对老师们的研究内容有了基本的认识。下面将对这6次的内容做个总结。 1. 主动学习 主动学习方法,是指能够从任务出发,通过对任务的理解来制定标准,挑选最关键的样本,使其最有助于…...
学会wordpress 怎么赚钱/网站推广seo
文章目录进程间通信介绍进程间通信的目的进程间通信的技术背景进程间通信的本质进程间通信的一些标准进程间通信意义进程间通信分类管道管道的概念管道的原理匿名管道站在文件描述符角度-深度理解管道站在内核角度-管道本质命名管道system V 共享内存共享内存的理解system V消息…...
网站做支付要多少钱/艺人百度指数排行榜
大家好,刚刚接触powershell,写了小脚本,各位大牛勿喷啊。小弟接触powershell 还没有一个星期。Get-EventLog application -after (get-date).adddays(-1) | Where-Object{($_.EntryType -eq "error") -or ($_.EntryType -eq "…...
怎么查看网站根目录/百度一下首页网页百度
一插上网线电脑会自动重启解决方法,网线,解决方法,插上,自动重启,电脑一插上网线电脑会自动重启解决方法易采站长站,站长之家为您整理了一插上网线电脑会自动重启解决方法的相关内容。今天遇到关于电脑的灵异事件,一插上网线电脑会自动重启,只…...
团购网站开发/品牌策划公司哪家好
031402606 贺翎 031402340 牛妍辉 ** 一、又一个老师的迫切需求--- 选择和分配本科毕设导师之烦恼 ** 首先,让我们一起来看一下客户的现实困扰 系负责人下发导师候选名单(excel或word形式)给该方向的所有学生,每个学生报五个平行志愿提交给年级负责人&am…...
济南品牌网站建设/软文广告
本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的个人博客文章,阅读本文,你可以更好的理解计算机视觉是怎么一回事,同时对机器学习是如何随着时间缓慢发展的也有个直观的认识。 以下为正文&a…...