【NLP 1、人工智能与NLP简介】
人人都不看好你,可偏偏你最争气
—— 24.11.26
一、AI和NLP的基本介绍
1.人工智能发展流程
弱人工智能 ——> 强人工智能 ——> 超人工智能
① 弱人工智能
人工智能算法只能在限定领域解决特定的问题
eg:特定场景下的文本分类、垂直领域下的对话、银行卡卡号识别
② 强人工智能
在通用领域胜任人类所有的工作、一个模型处理不同工作
eg:各种大模型
③ 超人工智能
远超人类的智慧
目前AI技术的阶段:在弱人工智能与强人工智能发展间的阶段
2.人工智能 —— 研究方向
① 语音合成(TTS)
eg:语音播报能力、站点报时报点
② 语音识别(ASR)
说一句话将这段音频转为文字
eg:语音转文字
③ 字符识别(OCR)
从画面中识别一些特定的字符串、信息
eg:录入身份证/银行卡信息/违章识别
④ 机器翻译(MP)
自然语言处理的一种,将不同语言间进行翻译
eg:同声翻译
⑤ 图像识别(CV)
在一张图像中识别出具体的物体
eg:电商拍图搜索类似商品
⑥ 语义理解(NLU)
强大的语义理解,从文本中识别出具体语义
eg:对话机器人
⑦ 指纹识别(较为成熟)
通过指纹识别出不同的角色
⑧ 声纹识别(较为成熟)
通过声纹识别出不同的身份,而不用判断说的内容
3.人工智能、机器学习、深度学习间的关系
① 人工智能是一个较大的范畴
② 机器学习是实现人工智能的一种基本方法
③ 深度学习是机器学习的一个分支
4.人工智能(机器学习)—三驾马车
① 算法
② 算力(主要进步)
③ 数据(主要进步)
5.自然语言处理(NLP)
自然语言处理包含:语言学、数学、计算机科学三者交叉
自然语言处理的目标
① 人机交互
eg:问答搜索、闲聊回答、指令操作、机器翻译
辅助生活和工作,给生活带来便利,随着机器能力边界的提升其价值不断增加
② 数据分析/挖掘
eg:舆情分析、文本分类、知识抽取、命名实体识别
辅助决策和选择,给决策带来便利,随着数据量的增大和类别的增多其价值不断提升
二、算法行业介绍
1.算法相关的工作
Ⅰ 落地型
① 主要负责业务场景的算法落地,动手编程能力强
② 需要熟悉业务场景常见问题,极端情况的处理
③ 难点:小坑不断、需求改变、数据欠缺、效果不定
Ⅱ 研究型
① 主要负责发表论文及算法比赛等,理论知识扎实
② 研究内容可以脱离实际业务,在公开数据集上工作
③ 难点:需要创新思路、参加比赛获奖
2.项目人员构成
① 业务人员/甲方
一般是非程序员,根据业务场景需要,提出需求
② 产品经理
与业务对接、梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求
③ 开发人员
人工智能方向一般大致分成算法开发和工程开发,合作处理整个项目
④ 测试人员
专门进行测试,也可以进一步细分,一般也需要编程能力
⑤ 运维人员
机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况
⑥ Option(可选)
部署人员、数据标注人员、项目管理人员、平台维护人员
3.项目主要流程&算法开发职责
① 确认需求 —— 业务发起需求评审(进行沟通)
了解业务背景,以算法人员视角给出是否可行的意见
② 确认技术方案 —— 开发进行技术评审(算法方案+工程方案),根据需求制作方案
对问题的建模过程,需求转化为哪(几)种机器学习问题(或规则处理),需要哪些前置条件
③ 获取标注数据 —— 算法或业务提出数据需求
建立标注规范,校验数据格式,抽样评估效果 ,训练集验证集划分,搜索开源数据,购买数据
⭐④ 代码开发 —— 模型训练、功能开发等
训练/预测代码开发,算法实验,对比效果
⑤ 测试 —— 测试用例评审
功能测试、效果测试、性能测试,开发可以自测,配合测试组发现的问题做修改
⑥ 部署上线/投入使用 —— 开发上线,测试验证,运维监控
每个公司使用框架情况有所差异,根据实际情况处理
⑦ 后续迭代 —— 业务提出需求
数据埋点、分析日志等
4.算法工程师需要的技能
① 编程能力
② 算法知识储备
③ 沟通和协作能力
④ 学习能力
⑤ 一定程度的英文功能
⑥ 使用搜索引擎/大模型的能力
5.NLP面临的困难
① 口吃系列、划分语义边界
例:
校长说衣服上除了校徽别别别的
过几天天天天气不好
骑车出门差点摔跤,还好我一把把把把住了
碳碳键键能能否否定定律一
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
我背有点驼,麻麻说“你的背得背背背背佳“
② 分词系列、划分语义边界
例:
南京市长江大桥
一位友好的哥谭市民
乒乓球拍卖完了
③ 套娃系列、语言的递归性
例:
转发(自治区教育厅办公室关于转发教育部关于做好春夏季中小学生和幼儿安全工作的紧急通知》的通知》的通知
④ 同文歧义系列、常识认知、社会认知
例:
单身的原因有两个,一是谁都看不上,二是谁都看不上。
女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。
冬天:能穿多少穿多少。夏天:能穿多少穿多少
⑤ 反话正说系列、语序和语义的关联
例:
屡败屡战 屡战屡败
情理之中意料之外 意料之外情理之中
情有可原罪无可恕 罪无可恕情有可原
⑥ 崩溃系列
例:
领导:你这是什么意思?
小明:没什么意思,意思意思。
领导:你这就不够意思了。
小明:小意思,小意思。
领导:你这人真有意思。
小明:其实也没有别的意思。
领导:那我就不好意思了。
小明:是我不好意思。
⑦ 英语系列
例:
Kids
Watching a Model Train
Normal PeopleWatching aModel Train
Software Engineers
Watching amodel Train
NLP对于机器来说很困难,本质上是因为对人来说它也很困难
对语言的理解要远远难于对一些有着明确规则任务的理解
语言本身具有创造性,在不同时代和背景下进行不断地更新迭代
三、人工智能和深度学习的发展历程
1.人工智能的发展
① 起步发展期
1950~1960,人工智能诞生
eg:机器定理证明、智能跳棋程序
② 反思发展期
1960~1970,任务失败,目标落空
eg:机器翻译,笑话百出、定理证明,发展乏力
③ 应用发展期
1970~1980,专家系统遍地开发,人工智能转向实用
eg:医疗专家系统、化学专家系统、地质专家系统
④ 低迷发展期
1980~1990,多项研究发展缓慢
eg:专家系统发展乏力、神经网络研究受阻
⑤ 稳步发展期
1990~2010,互联网推到人工智能不断创新和实用
eg、深蓝战胜国际象棋冠军、IBM提出智慧地球、我国提出感知中国
⑥ 蓬勃发展期
2010至今,深度学习和大数据兴起带来了人工智能的爆发
物联网、云计算、大数据
2.NLP的发展历程
图灵测试 —— 如何判断机器是否拥有智能
1950年提出,是图灵的个人观点,并非当前业界的追求
测试方法
让机器人冒充人,与人展开对话,如果有超过30%的人误以为在是人类在和自己对话而非计算机,那就可以认为这台机器拥有人类智能
3.NLP的发展现状
① 深度学习大幅改变了NLP研究,极大地推进了NLP技术的发展
② NLP技术已经深入生活的各个角落,输入法(提示输入词)、语音助手、搜索引擎(浏览器,用相关文字查找到有关的网页)、智能客服(智能电话)等大量依赖NLP技术的应用已经被推广和使用
③ 大语言模型的强大理解能力,让人们看到了强人工智能的曙光
四、一些NLP常用的工具和框架介绍
1.编译器
Pycharm、VSCode
2.机器学习相关python框架
① Tensorflow
工程配套完善
② Pytorch
调试方便,目前的主流
③ Keras
高级封装,简单好用,现已和Tensorflow合体
④ Gensim
训练词向量常用
⑤ Sklearn
大量机器学习算法,如逻辑回归、决策树、支持向量机、随机森林、KMeans等等,同时具有数据集划分和各种评价指标的实现
⑥ Numpy
各种向量矩阵操作
多多调用库进行代码编写
相关文章:
【NLP 1、人工智能与NLP简介】
人人都不看好你,可偏偏你最争气 —— 24.11.26 一、AI和NLP的基本介绍 1.人工智能发展流程 弱人工智能 ——> 强人工智能 ——> 超人工智能 ① 弱人工智能 人工智能算法只能在限定领域解决特定的问题 eg:特定场景下的文本分类、垂直领域下的对…...
网络安全事件管理
一、背景 信息化技术的迅速发展已经极大地改变了人们的生活,网络安全威胁也日益多元化和复杂化。传统的网络安全防护手段难以应对当前繁杂的网络安全问题,构建主动防御的安全整体解决方案将更有利于防范未知的网络安全威胁。 国内外的安全事件在不断增…...
Swagger记录一次生成失败
最近在接入Swagger的时候遇到一个问题,就是Swagger UI可以使用的,但是/v3/docs 这个接口的json返回的base64类型的json,并不是纯json,后来检查之后是因为springboot3里面配置了json压缩。 Beanpublic HttpMessageConverters cusHt…...
Go 语言常用工具方法总结
在 Go 语言开发中,常常需要进行一些常见的类型转换、字符串处理、时间处理等操作。本文将总结一些常用的工具方法,帮助大家提高编码效率,并提供必要的代码解释和注意事项(go新人浅浅记录一下,以后来翻看🤣&…...
ThingsBoard规则链节点:GCP Pub/Sub 节点详解
目录 引言 1. GCP Pub/Sub 节点简介 2. 节点配置 2.1 基本配置示例 3. 使用场景 3.1 数据传输 3.2 数据分析 3.3 事件通知 3.4 任务调度 4. 实际项目中的应用 4.1 项目背景 4.2 项目需求 4.3 实现步骤 5. 总结 引言 ThingsBoard 是一个开源的物联网平台࿰…...
【Linux】select,poll和epoll
select,poll,epoll都是IO多路复用的机制。I/O多路复用就通过一种机制,可以监视多个描述符fd,一旦某个描述符就绪(一般是读就绪或者写就绪),系统会通知有I/O事件发生了(不能定位是哪一个)。但sel…...
Qt程序发布及打包成exe安装包
参考:Qt之程序发布以及打包成exe安装包 目录 一、简述 Qt 项目开发完成之后,需要打包发布程序,而因为用户电脑上没有 Qt 配置环境,所以需要将 release 生成的 exe 文件和所依赖的 dll 文件复制到一个文件夹中,然后再用 Inno Setup 打包工具打包成一个 exe 安装包,就可以…...
python怎样运行js语句
1. 安装 pip install PyExecJS # 需要注意, 包的名称:PyExecJS 2. 简单使用 import execjs execjs.eval("new Date") 返回值为: 2018-04-04T12:53:17.759Z execjs.eval("Date.now()") 返回值为:152284700108…...
汽车渲染领域:Blender 和 UE5 哪款更适用?两者区别?
在汽车渲染领域,选择合适的工具对于实现高质量的视觉效果至关重要。Blender和UE5(Unreal Engine 5)作为两大主流3D软件,各自在渲染动画方面有着显著的差异。本文将从核心定位与用途、工作流程、渲染技术和灵活性、后期处理与合成四…...
JAVA实现将PDF转换成word文档
POM.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.…...
前端-Git
一.基本概念 Git版本控制系统时一个分布式系统,是用来保存工程源代码历史状态的命令行工具 简单来说Git的作用就是版本管理工具。 Git的应用场景:多人开发管理代码;异地开发,版本管理,版本回滚。 Git 的三个区域&a…...
如何分析Windows防火墙日志
Windows防火墙,也被称为Windows Defender Firewall,是一种内置的安全功能,可以主动监控和分析运行Windows操作系统的计算机上通过Windows防火墙的网络流量,主要目的是作为计算机和互联网或其他网络之间的屏障,使管理员…...
工作坊报名|使用 TEN 与 Azure,探索你的多模态交互新场景
GPT-4o Realtime API 发布,语音 AI 技术正在进入一场新的爆发。语音AI技术的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。 实时音频交互: 允许应用程序实时接收并响应语音和文本输入。自然语音生成: 减少 AI 技术生成的语音…...
学习笔记041——Elastic Search的学习与使用以及SpringBoot整合
文章目录 1、Elastic Search介绍1.1、ES 的数据结构1.2、ES 为什么查询快1.3、CRUD 2、Spring Boot 整合 ES 1、Elastic Search介绍 Elasticsearch是一个分布式的、基于RESTful API的搜索和分析引擎,广泛用于大规模数据存储和快速检索。它最初由Shay Banon于20…...
R安装rgdal报错 解决办法
尝试了网上很多办法,不知道哪一步解决了,记录一下所有步骤: 1. 尝试github安装 options(repos c(CRAN "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))install.packages("devtools")library(devtools)devtools::in…...
【智能制造-46】人机工程(工厂自动化)
工作空间设计 设备布局规划 根据人体测量学数据,合理安排自动化设备、生产线和工作区域的布局。例如,考虑工人的操作空间和活动范围,确保他们能够舒适地接近和操作设备。在汽车装配车间,机器人和工人的工作区域应划分明确&#…...
C#笔记(5)
一、winform项目与窗体控件 1、部分类的使用 好处:让自动生成的代码后置,我们编写程序的代码显得更加简洁 特点:在最后编译的时候,仍然编译成一个窗体类。 窗体和控件的基本使用 3、Event事件(委托--》事件&#…...
【软件国产化】| Windows和Linux下文件名后缀是否区分大小写
今天在开发过程中遇到了个软件在Linux系统和Windows系统下功能表现不一致的bug,具体表现为: 插入一张图片(A文件夹中的001.jpg),然后使用“图片替换”功能,用B文件夹中的图片(B文件夹中的001.JP…...
讨论JAVA、JVM与Spring
Q1: 作为一个JAVA开发人员,对于jvm肯定不陌生,但很多人对它不陌生也仅止于概念上,而且对概念也是模糊不清的,但jvm实际是java程序运行在其中的实际存在的环境,对它的理解应该要是具象化的。 我们还是从一项技术产生的…...
【04】MySQL数据库和数据表的基本操作详解与实例
文章目录 一、连接MySQL服务器二、数据库的基本操作2.1数据库的基本操作1. 创建数据库2. 选择数据库3. 删除数据库4.查询所有数据库5.修改数据库的字符集 2.2 数据表的基本操作1. 创建数据表2. 查看数据表结构3. 删除数据表4. 修改数据表5. 插入数据6. 查询数据7. 更新数据8. 删…...
Spring中实现动态数据源切换,基于AbstractRoutingDataSource
背景 在项目开发过程中,我们可能会遇到一个场景:某个类型数据源有多个数据源实例,需要我们按照不同的请求切换到不同数据源去。 而目前绝大多数java应用都是基于Spring框架来开发,我们很多时候相关的数据源连接都是交给了Spring框…...
StarRocks-join优化
1、背景 有两个大表,都是6kw级别上下的,通过SR然后包装了一个接口对外提供查询,当前的问题是,这样大的join查询会导致BE直接宕机。并且这个sql很有代表性,我截图如下: 这个表是个单分区,所以直接…...
js 高亮文本中包含的关键词标红
在开发中,遇到需要将文本中包含的关键字高亮的情况,可以做以下处理。 <div class"title"v-html"highlightKeywords(item.title, state1.tags1.concat(state2.tags2).concat(state3.tags3))"> </div> ...... ...... con…...
DVWA靶场——File Inclusion
File Inclusion(文件包含)漏洞 指攻击者通过恶意构造输入,利用应用程序错误的文件包含机制,导致程序包含并执行未经授权的本地或远程文件。这类漏洞广泛存在于Web应用程序中,尤其是在那些允许用户提供文件路径或URL的地…...
Android Framework禁止弹出当前VOLTE不可用的提示窗口
文章目录 VoLTE简介VoLTE 的优势 当前VOLTE不可用的弹窗弹窗代码定位屏蔽弹出窗口 VoLTE简介 VoLTE(Voice over LTE)是一种基于4G LTE网络的语音通话技术。它允许用户在4G网络上进行高质量的语音通话和视频通话,而不需要回落到2G或3G网络。V…...
OceanBase 大数据量导入(obloader)
现需要将源数据库(Oracle|MySQL等)一些表的海量数据迁移到目标数据库 OceanBase 中,基于常规 jdbc 驱动编码的方式涉及开发工作,性能效率也要看编码的处理机制。 OceanBase 官方提供了的 OceanBase Migration Service (OMS) 数据…...
w058基于web的美发门店管理系统
🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文件࿰…...
实时数据开发 | checkpoints监控和调优
监控Checkpoints 监控 checkpoint 行为最简单的方法是通过 UI 的 checkpoint 部分。 监控这两个指标: 算子收到第一个 checkpoint barrier 的时间。当触发 checkpoint 的耗费时间一直很高时,这意味着 checkpoint barrier 需要很长时间才能从 source 到达 operator…...
el-tree的使用及控制全选、反选、获取选中
el-tree的使用及控制全选、反选、获取选中 组件使用获取选中的id全选实现反选实现全部代码 组件使用 引入组件,可以参考官网组件引入参考官网示例写好基础数据结构,不知道怎么转换树形机构的看文章:一维数组转树形 <template><el-…...
机器学习(二十五):决策树算法以及决策树和神经网络的对比
一、决策树集合 单一决策树会对训练数据的变化很敏感。例子:输入十个数据,判断是否是猫。只替换其中一个数据,信息增益最高的分裂特征就发生了改变,决策树就发生了变化。 使用决策树集合可以使算法更加健壮。例子:使用…...
服务网站备案/seo发包排名软件
1.两种思维方式在求职面试中,经常会考察这种问题:北京有多少量特斯拉汽车? 某胡同口的煎饼摊一年能卖出多少个煎饼? 深圳有多少个产品经理? 一辆公交车里能装下多少个乒乓球? 一个正常成年人有多少根头发&a…...
杭seo网站建设排名/佛山优化网站关键词
无论你如何将Hadoop与Spark进行对比,无论Spark生态多么成熟和完善,其底层终归要基于HDFS,毕竟这是目前最成熟的分布式底层文件系统,几乎没有哪家公司愿意重新花费精力研发一个全新的文件系统。本文将讨论Hadoop分布式文件系统(HDF…...
专门做餐厅设计的网站/苏州网络公司
SpringBoot2整合SpringSecuritySwagger3系列 首先开启Security日志 logging.level.org.springframework.security.webdebug浏览器访问http://localhost:8080/swagger-ui/index.html,通过Spring Security的过滤器,对应的日志如下所示(从侧面印…...
吉林省吉林市疫情风险等级/抖音seo优化排名
在第一篇教程中有提到MP中的各种元素。 最近今天一直在做MP,出了不少的问题,也对Mp也有更深的了解。 今天说说做MP包的思路问题: 1、如果你要反馈的信息在Mp的类库中没有原始类的话,你就需要定义一个类(ClassType&…...
做任务领游戏的网站/正规seo多少钱
C:\Users\Administrator 找到.gitconfig 删掉这个...
网站开发一般用的字体类型/世界十大搜索引擎及地址
前言: 个人觉得对于测试人员而言,对Wireshark要就不高,只需要懂得如何进行抓包,如何查看有用的数据就可以了! Wireshark Wireshark 是世界上最流行的网络分析工具。 这个强大的工具可以捕捉网络中的数据,…...