当前位置：首页 > news >正文

自然语言处理基本知识(1)

news 2026/2/7 19:49:58

一分词基础

NLP:搭建了计算机语言和人类语言之间的转换
在这里插入图片描述

1 精确分词，试图将句子最精确的分开，适合文本分析

>>> import jieba
>>> content = "工信处女干事每月经过下属科室"
>>> jieba.cut(content,cut_all = False)
<generator object Tokenizer.cut at 0x0000026F1DA55DE0>
>>> jieba.lcut(content cut_all = False)File "<stdin>", line 1jieba.lcut(content cut_all = False)^
SyntaxError: invalid syntax
>>> jieba.lcut(content, cut_all = False)
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.797 seconds.
Prefix dict has been built successfully.
['工信处', '女干事', '每月', '经过', '下属', '科室']

2 全模式分词，把句子中所有的可以成词的词语都扫描出来，速度很快，但是不能消除歧义

>>> jieba.lcut(content, cut_all = Ture)
Traceback (most recent call last):
>>> jieba.lcut(content, cut_all = True)
['工信处', '处女', '女干事', '干事', '每月', '月经', '经过', '下属', '科室']

3 搜索引擎模式分词，在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词

>>> jieba.cut_for_search(content)
<generator object Tokenizer.cut_for_search at 0x0000026F1DA55DE0>
>>> jieba.lcut_for_search(content)
['工信处', '干事', '女干事', '每月', '经过', '下属', '科室']

4 繁体字

在这里插入图片描述

5 用户自定义字典

jieba内部有自己的一个词典库，但是允许用户自己自定义补充词典
在这里插入图片描述

>>> import jieba
>>> jieba.lcut("八一双鹿更名为八一南昌篮球队")
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.729 seconds.
Prefix dict has been built successfully.
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队']
>>> jieba.load_userdict("./userdict.txt")
>>> jieba.lcut("八一双鹿更名为八一南昌篮球队")
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队']

在这里插入图片描述

cmd常用编辑命令：
退出python环境，ctrl+z，然后回车
创建文件：vim
写文件

6 中英文分词工具 hanlp

中文分词

import hanlp
tokenizer = hanlp.load('CTB6_CONVSEG')
tokenizer('工信处女干事每月经过下属科室')

英文分词

import hanlp
tokenizer = hanlp.utils.rules.tokenizer_english('CTB6_CONVSEG')
tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')

（1）命名实体识别：把任意的专有名词，识别出来

在这里插入图片描述

import hanlp
//中文实体识别
recongnizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
recongnizer (list('上海华安工业（集团）公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观'))//英文实体识别
recongnizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN)

6 词性标注，每一个次不仅要分开，还要标记词性。是建立在分词的基础上

在这里插入图片描述

>>> import jieba.posseg as pseg
>>> pseg.lcut("我爱北京天安门")
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.725 seconds.
Prefix dict has been built successfully.
[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]

在这里插入图片描述

二文本张量

1 ONE-HOT

维度灾难，数据多长，就需要多长的维度
数据之间的相似性无法衡量，余弦相似度计算，相似度，所有结果都是0

在这里插入图片描述
矩阵里面的每一行数据，表示一个词。计算机能识别，一一对应

（1）one-hot编码器实现

from sklearn.externals import joblib
from keras.preprocessing.text import Tokenizer
vocab = {"周杰伦","陈奕迅"," 王力宏", "李宗盛 " }
//num_words=None：意味着不限制词汇表的大小
//char_level=False：表示按词处理文本，而不是按字符
t = Tokenizer(num_words = None, char_level = False)
t.fit_on_texts(vocab) //使用提供的词汇表对Tokenizer进行训练，构建词汇索引
for token in vocab:zero_list = [0]*len(vocab) //创建一个与词汇表长度相等的全零列表zero_list//t.texts_to_sequences([token])将词转换为其对应的索引序列。//[0][0]从嵌套列表中提取实际的索引值//-1调整索引，使其从0开始。token_index = t.texts_to_sequences([token])[0][0] -1zero_list [token_index ] = 1print(token, " one-hot 编码是：",zero_list  )//使用joblib.dump保存训练好的Tokenizer对象到指定路径
tokenizer_path = "./Tokenizer"
joblib.dump(t,tokenizer_path)

李宗盛 one-hot 编码是： [1, 0, 0, 0]
周杰伦 one-hot 编码是： [0, 1, 0, 0]
陈奕迅 one-hot 编码是： [0, 0, 1, 0]
王力宏 one-hot 编码是： [0, 0, 0, 1]

（2）one-hot编码器使用

from sklearn.externals import joblib
t = joblib.load("./Tokenizer");
token = "周杰伦"
token_index = t.texts_to_sequences([token])[0][0] -1
zero_list = [0]*4 
zero_list[token_index] = 1
print(token, "one-hot code :",zero_list)

在这里插入图片描述

（3）one-hot 编码优劣

在这里插入图片描述

2 word2vec

重要假设，离得越近的词语相似度越高
中心词的上下文是由什么来规定的，由窗口大小来限定
窗口限制外的非上下文词，太多了，导致负样本太多，所以只能采样一部分来作为负样本
如何评估词向量：可视化；输出相关度比较高的词语；类比实验

缺点
在这里插入图片描述

在这里插入图片描述

(1) CBOW

在这里插入图片描述

(2) skipgram

在这里插入图片描述

(3) skipgram

(4) 案例运行

在这里插入图片描述
cmd上进入python环境运行

数据准备

mkdir data
unzip data/enwik9.zip -d data
head -10 data/enwik9
perl wikifil.pl data/enwik9 >data/fil9
head -c 80 data/fil9

在这里插入图片描述

训练词向量

三 CMD 内安装jupyter

参考链接，可在不同地方安装该插件

直接打开CMD,然后直接输入pip install jupyter 即安装完毕
然后输入jupyter notebook即运行jupyter，会出现一个网页，然后选Desktop,右上角创建Folder,最后在Folder里面创建.py文件即可

自然语言处理基本知识(1)

一分词基础 NLP:搭建了计算机语言和人类语言之间的转换 1 精确分词，试图将句子最精确的分开，适合文本分析 >>> import jieba >>> content "工信处女干事每月经过下属科室" >>> jieba.cut(content,cut_all …...

编程日记 2024/7/2 11:34:27

Java中的数据加密与安全传输

Java中的数据加密与安全传输大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们来探讨一下在Java中如何实现数据加密与安全传输。随着互联网的普及和网络…...

编程日记 2024/7/2 11:33:26

UG NX二次开发(C++)-根据草图创建拉伸特征（UFun+NXOpen）

1、前言 UG NX是基于特征的三维建模软件，其中拉伸特征是一个很重要的特征，有读者问如何根据草图创建拉伸特征，我在这篇博客中讲述一下草图创建拉伸特征的UG NX二次开发方法，感兴趣的可以加入QQ群：749492565，或者在评论区留言。 2、在UG NX中创建草图，然后创建拉伸特征 …...

编程日记 2024/7/2 11:32:25

TS_开发一个项目

目录一、编译一个TS文件 1.安装TypeScript 2.创建TS文件 3.编译文件 4.用Webpack打包TS ①下载依赖 ②创建文件 ③启动项目 TypeScript是微软开发的一个开源的编程语言，通过在JavaScript的基础上添加静态类型定义构建而成。TypeScript通过TypeScript编译器或…...

编程日记 2024/7/2 11:31:24

2024年华为OD机试真题-传递悄悄话 -C++-OD统一考试（C卷D卷）

2024年OD统一考试（D卷）完整题库：华为OD机试2024年最新题库（Python、JAVA、C++合集）题目描述：给定一个二叉树，每个节点上站着一个人，节点数字表示父节点到该节点传递悄悄话需要花费的时间。初始时，根节点所在位置的人有一个悄悄话想要传递给其他人，求二叉树所有节…...

编程日记 2024/7/2 11:29:20

文章目录 I eclipse1.1 工程配置1.2 编译工程1.3 添加 JRE for the project build pathII tomcat配置JRE环境2.1 Eclipse编辑tomcat运行环境（Mac版本）2.2 Eclipse编辑tomcat运行环境（windows版本）2.3 通过tomcat7W.exe配置运行环境（windows系统）I eclipse 1.1 工程配置 …...

编程日记 2024/7/2 11:28:19

Spring Boot 学习第八天：AOP代理机制对性能的影响

1 概述在讨论动态代理机制时，一个不可避免的话题是性能。无论采用JDK动态代理还是CGLIB动态代理，本质上都是在原有目标对象上进行了封装和转换，这个过程需要消耗资源和性能。而JDK和CGLIB动态代理的内部实现过程本身也存在很大差异。下面将讨…...

编程日记 2024/7/2 11:27:17

Linux[高级管理]——Squid代理服务器的部署和应用(传统模式详解)

🏡作者主页：点击！ 👨‍💻Linux高级管理专栏：点击！ ⏰️创作时间：2024年6月24日11点11分 🀄️文章质量：95分目录 ————前言———— Squid功能 Squ…...

编程日记 2024/7/2 11:26:16

使用Vue 2 + Element UI搭建后台管理系统框架实战教程

后台管理系统作为企业内部的核心业务平台，其界面的易用性和功能性至关重要。Vue 2作为一个成熟的前端框架，以其轻量级和高效著称，而Element UI则是一套专为桌面端设计的Vue 2组件库，它提供了丰富的UI元素和组件，大大简…...

编程日记 2024/7/2 11:24:13

Carla安装教程

1.前言对于从事自动驾驶的小伙伴而言，或多或少应该都接触过一些的仿真软件，今天要给大家介绍的这款仿真软件应该算的上是业界非常有名的一款仿真软件——carla。目前carla的学习教程也还是蛮多的，但是写的都不是很全，在配置的…...

编程日记 2024/7/2 11:22:11

【PYG】处理Cora数据集分类任务使用的几个函数log_softmax，nll_loss和argmax

文章目录 log_softmax解释作用示例解释输出 nll_loss解释具体操作示例代码解释 nll_losslog_softmaxcross_entropy解释代码示例解释 argmax()解释作用示例代码解释示例输出 log_softmax F.log_softmax(x, dim1) 是 PyTorch 中的一个函数，用于对输入张量 x 应用 log…...

编程日记 2024/7/2 11:20:09

Labview绘制柱状图

废话不多说，直接上图我喜欢用NXG风格，这里我个人选的是xy图。点击箭头指的地方选择直方图插值选择第一个直方图类型我选的是第二个效果如图。程序部分如图。最后吐槽一句，现在看CSDN好多文章都要收费了，哪怕一些简单的入…...

编程日记 2024/7/2 11:18:07

使用Python实现一个简单的密码管理器

文章目录一、项目概述二、实现步骤2.1 安装必要的库2.2 设计密码数据结构2.3 实现密码加密和解密2.4 实现主要功能2.4.1 添加新密码2.4.2 显示所有密码2.4.3 查找特定密码2.4.4 更新密码2.4.5 删除密码 2.5 实现用户界面三、代码示例3.1 加密和解密示例3.2 用户界面示例在现…...

编程日记 2024/7/2 11:17:05

【云原生】服务网格（Istio）如何简化微服务通信

🐇明明跟你说过：个人主页 🏅个人专栏：《未来已来：云原生之旅》🏅 🔖行路有良友，便是天堂🔖 目录一、引言 1、微服务架构的兴起 2、Istio：服务网格的佼…...

编程日记 2024/7/2 11:16:04

spring boot 整合 sentinel

注意版本问题我这是jdk11 、spring boot 2.7.15 、 alibaba-sentinel 2.1.2.RELEASE <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.15</version><…...

编程日记 2024/7/2 11:15:02

蜜雪冰城小程序逆向

app和小程序算法一样小程序是wasm...

编程日记 2024/7/2 11:14:01

pbootcms提交留言成功后跳转到指定的网址

pbootcms在线留言表单提交成功后，如何跳转到指定的网址，默认提交留言后留在原来的页面，如果提交后需要跳转到指定网址，我们需要对文件进行修改。首先我们打开/core-/function/helper.php文件找到第162行左右代码： ech…...

编程日记 2024/7/2 11:12:59

16、matlab求导、求偏导、求定积分、不定积分、数值积分和数值二重积分

0）前言在MATLAB中，对函数进行不同形式的求导、求积分操作是非常常见的需求，在工程、科学等领域中经常会用到。以下是关于求导、求积分以及数值积分的简介： 求导：在MATLAB中可以使用diff函数对函数进行求导操作。diff…...

编程日记 2024/7/2 11:11:58

MySQL 9.0创新版发布！功能又进化了！

作者：IT邦德中国DBA联盟(ACDU)成员，10余年DBA工作经验， Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主，全网粉丝10万擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复， 安装迁移，性能优化、故障…...

编程日记 2024/7/2 11:09:54

后端系统的安全性

后端系统的安全性后端系统的安全性是任何Web应用或服务的核心组成部分，它涉及保护数据、用户隐私以及系统免受恶意攻击。以下是后端安全的一些关键点： 认证和授权：确保只有经过身份验证的用户才能访问特定资源。这通常包括使用用户名/密码…...

编程日记 2024/7/2 11:07:51

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/5 15:43:28

python打卡day49

知识点回顾： 通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

编程新知 2026/2/7 5:37:17

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

CSI-2 协议详细解析 (一） 1. CSI-2层定义（CSI-2 Layer Definitions） 分层结构 ：CSI-2协议分为6层： 物理层（PHY Layer） ： 定义电气特性、时钟机制和传输介质（导线&#…...

编程新知 2026/1/23 12:18:20

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2026/2/1 1:50:03

高危文件识别的常用算法：原理、应用与企业场景

高危文件识别的常用算法：原理、应用与企业场景高危文件识别旨在检测可能导致安全威胁的文件，如包含恶意代码、敏感数据或欺诈内容的文档，在企业协同办公环境中（如Teams、Google Workspace）尤为重要。结合大模型技术&…...

编程新知 2026/1/31 6:09:20

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

反射获取方法和属性

Java反射获取方法在Java中，反射（Reflection）是一种强大的机制，允许程序在运行时访问和操作类的内部属性和方法。通过反射，可以动态地创建对象、调用方法、改变属性值，这在很多Java框架中如Spring和Hiberna…...

编程新知 2025/11/9 2:57:17

Android第十三次面试总结（四大组件基础）

Activity生命周期和四大启动模式详解一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成，用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机： onCreate() 调用时机：Activity 首次创建时调用。…...

编程新知 2025/10/15 15:07:34

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

编程新知 2025/10/20 4:39:36

一 分词基础

1 精确分词，试图将句子最精确的分开，适合文本分析

2 全模式分词，把句子中所有的可以成词的词语都扫描出来，速度很快，但是不能消除歧义

3 搜索引擎模式分词， 在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词

4 繁体字

5 用户自定义字典

6 中英文分词工具 hanlp

（1） 命名实体识别：把任意的专有名词，识别出来

6 词性标注，每一个次不仅要分开，还要标记词性。是建立在分词的基础上

二 文本张量

1 ONE-HOT

（1）one-hot编码器实现

（2）one-hot编码器使用

（3）one-hot 编码优劣

2 word2vec

(1) CBOW

(2) skipgram

(3) skipgram

(4) 案例运行

三 CMD 内安装jupyter

相关文章：

一分词基础

3 搜索引擎模式分词，在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词

（1）命名实体识别：把任意的专有名词，识别出来

二文本张量