当前位置: 首页 > news >正文

NLP - langid 语种识别

文章目录

    • 一、关于 langid
    • 二、基本使用
      • Normalization
      • 多个语言中选择一个
    • 三、训练模型
      • 1、需要
      • 2、工具是
      • 3、过程
      • 4、代码调用自定义模型


一、关于 langid

https://github.com/saffsd/langid.py
用于检测语言


二、基本使用

import langidlangid.classify("This is a test")
('en', -54.41310358047485)

Normalization

可以使用 0–1 之间的数据来衡量

from langid.langid import LanguageIdentifier, model
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.classify("This is a test")
# ('en', 0.9999999909903544)

多个语言中选择一个

上述方式,很多时候存在语言不准的情况,可以设置默认语言,让 langid 来选取

langid.set_languages(['de','fr','it'])langid.classify("I do not speak english")
('it', 0.99999835791478453)


def detect():identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.set_languages(['th', 'zh', 'en'])arr = ['I do not speak english','ผู้สื่อข่าวได้รับแจ้งว่ามีประชาชนเ','得亲密。','由泰国当红男星"film" Rattapoom Toekongsap和泰国超模']for str in arr:print(identifier.classify(str))

三、训练模型


1、需要

1、单语文档语料库

2 层深的文件夹层次结构:域 – 语言类型 – 文档文件

每个文档应该是一个单独的文件,每个文件应该在一个 2 层深的文件夹层次结构中,语言嵌套在域中。

./corpus/domain1/en/File1.txt 
./corpus/domainX/en/001-file.xml

2、工具是

  1. index.py - 索引语料库。生成文件、语料库、语言对的列表。
  2. tokenize.py - 获取索引并标记相应的文件
  3. DFfeatureselect.py - 按文档频率选择特征
  4. IGweight.py - 计算语言和领域的 IG 权重
  5. LDfeatureselect.py - 获取 IG 权重并使用它们来选择一个特征集
  6. scanner.py - 基于功能集构建扫描仪
  7. NBtrain.py - 使用索引语料库和扫描仪学习 NB 参数

3、过程

1、索引

$ python index.py ./corpus

2、标记

python tokenize.py corpus.model

3、识别最频繁的标记

通过文档频率识别最频繁的标记

python DFfeatureselect.py corpus.model

4、计算每个顶级特征的 IG 权重
以下两个都需要执行

python IGweight.py -d corpus.model
python IGweight.py -lb corpus.model

5、计算每个令牌的 LD 分数

python LDfeatureselect.py corpus.model

这将生成用于构建 NB 模型的 LD 特征的最终列表。


6、组装扫描仪

python scanner.py corpus.model

扫描仪是对特征集的编译 DFA,可用于计算文档中每个特征在单次遍历文档中出现的次数。此 DFA 是使用 Aho-Corasick 字符串匹配构建的。


7、朴素贝叶斯参数

最后,我们学习实际的朴素贝叶斯参数:

python NBtrain.py corpus.model

4、代码调用自定义模型

1)从指定位置加载模型,并进行 normalize

identifier = LanguageIdentifier.from_modelpath(model_path, norm_probs=True)

model 本质是一个长字符串


2)从字符串加载模型

from langid.langid import LanguageIdentifier, modelidentifier = LanguageIdentifier.from_modelstring(model, norm_probs=True) 

3)命令行中使用

# normalize
$ python langid.py -n
>>> 你好呀
('zh', 0.9998446372669386)# normalize + custom model  
$ python langid.py -n -m  /Users/xxx/langid.py/langid/train/corpus.model/model 
>>> 这是美好的开始
('zh', 0.999999927953073)

伊织 2021-09-07

相关文章:

NLP - langid 语种识别

文章目录一、关于 langid二、基本使用Normalization多个语言中选择一个三、训练模型1、需要2、工具是3、过程4、代码调用自定义模型一、关于 langid https://github.com/saffsd/langid.py 用于检测语言 二、基本使用 import langidlangid.classify("This is a test"…...

liquibase学习和使用

文章目录liquibase学习介绍数据库更新日志和数据库更新日志锁定相关概念changelogchangeset的属性preconditionsql样例Contextssql样例Labelsql样例文件格式sql样例其他格式用的时候在补充跟踪表DATABASECHANGELOGLOCK (数据库更改日志锁定表)DATABASECH…...

redhawk:Low Power Analysis

1.rush current与switch cell 在standby状态下为了控制leakage power我们选择power gating的设计方式,使用power switch cell关闭block/power domain的电源。 power switch的基本介绍可见: 低功耗设计-Power Switch power switch的table中有四种状态,…...

24- 深度学习的模型保存和加载 (TensorFlow系列) (深度学习)

知识要点 keras 保存成hdf5文件, 1.保存模型和参数, 2.只保存参数 1.保存模型和参数 save_modelcallback ModelCheckpoint2. 只保存参数 save_weightscallback ModelCheckpoint save_weights_only True 保存模型: 案例数据: Fashion-MNIST总共有十个类别的图像model.save_w…...

【Echarts图例点击事件】自定义Echarts图例legend点击事件(已解决)

目录先睹为快(效果)1、实现Echarts多条曲线2、点击echarts触发接口请求2.1 先默认隐藏部分数据2.2 自定义legend图例点击事件3、源码下载地址(解压即用)**【写在前面】**这下我又不得不说了,还是客户现场使用时想查询一…...

uniapp-首页配置

为了获取到后台服务器发来的数据,需要配置相应的网络地址。位置在main.js入口文件中。 import { $http } from escook/request-miniprogramuni.$http $http // 配置请求根路径 $http.baseUrl https://api-hmugo-web.itheima.net// 请求开始之前做一些事情 $http.…...

支持DDR5,超频更简单,小雕够给力,技嘉B760M小雕WIFI主板上手

目前13代酷睿已经全员集结了,其中全新的i5 13490F应该依然会备受欢迎,当然了,刚上市不久的13代酷睿价格方面还不是很有吸引力,好在12代酷睿在新一代主板上面依然可用,所以预算有限的朋友,完全可用继续使用1…...

fengMap 自定义dom 偏离实际位置;缩放时飘出地图所在区域

目录 一、问题 二、原因及解决方法 三、总结 一、问题 1.前人写了一份代码,很奇怪。使用 new fengmap.FMCompositeMarker添加的复合覆盖物位置是正常的,缩放的时候也是正常的,仍然处于地图内部;但是new fengmap.FMDomMarker添加…...

TryHackMe-黑我杯

黑我杯 相信我们大家在TryHackMe的日积月累都学到了不少东西,从纯萌新到oscp再到更高 我很高兴能将国内各thm玩家聚集到一起,构建一个更好的学习环境和氛围 本次娱乐分两场: Offensive Pentesting — 中等难度Junior Penetration — 容易难…...

【JAVA程序设计】【C00109】基于SSM(非maven)的员工工资管理系统

基于SSM(非maven)的员工工资管理系统项目简介项目获取开发环境项目技术运行截图项目简介 基于ssm框架非maven开发的企业工资管理系统共分为二个角色:系统管理员、员工 管理员角色包含以下功能: 系统后台登陆、管理员管理、员工信…...

《计算机原理》——HelloWorld.cpp如何运行的

学校《计算机原理》开课啦!特此开辟专栏,将一些知识作为笔记,记录下来。 前言 本篇博客知识点来源于educoder的相关题目 1. 相关知识 1.1 计算机语言 计算机语言是人与计算机之间通讯的语言,计算机语言包括编写计算机程序的字符…...

【面试题】在JS循环中使用await会怎么样?

前言这个问题是这样产生的?某天,在学习异步的知识遇到这样一道题:使用Promise的方式,每隔一秒输出数组中一个值const arr [1, 2, 3] ​ arr.reduce((pre, cur) > {return pre.then(() > {returnnewPromise((resolve, rejec…...

Qt QMessageBox详解

文章目录一.QMessageBox介绍枚举属性函数二.QMessageBox的用法1.导入QMessage库2.弹窗提示3.提供选项的弹窗提示4.作为提示,报警,报错提示窗口一.QMessageBox介绍 文本消息显示框(message box)向用户发出情况警报信息并进一步解释警报或向用户提问&…...

Flutter之beamer路由入门指南

beamer路由入门指南 前言使用方法1、路由配置方式1路由配置方式2路由跳转测试现象前言 Beamer是一个很好用的路由组件,本文以beamer1.5.0版本进行说明,前面博主也介绍了其他路由组件 Flutter实战之go_router路由组件入门指南 、 Flutter之Fluro路由组件入门指南 Flutter之Ge…...

「基础篇」机器学习概览

文章目录1. 什么是机器学习2. 引入机器学习3. 应用场景4. 机器学习分类4.1. 有无人类监督4.2. 是否增量学习4.3. 泛化方式5. 主要挑战6. 测试与验证1. 什么是机器学习 机器学习(Machine Learning,ML)是一个研究领域,让计算机无需…...

揭秘可视化图探索工具 NebulaGraph Explore 是如何实现图计算的

前言 在可视化图探索工具 NebulaGraph Explorer 3.1.0 版本中加入了图计算工作流功能,针对 NebulaGraph 提供了图计算的能力,同时可以利用工作流的 nGQL 运行能力支持简单的数据读取,过滤及写入等数据处理功能。 本文将简单分享下 NebulaGr…...

移动架构43_什么是Jetpack

Android移动架构汇总​​​​​​​ 文章目录一 Android 开发框架演变1 MVC2 MVP3 MVVM二 什么是JetPack三 如何构建支持Jetpack项目一 Android 开发框架演变 1 MVC Model-View-Controller,模型-视图-控制器,Model负责数据管理,View负责UI显…...

TiDB的分布式事务原理探究

事务开启 获取全局授时作为startTS构建一个tikvTxn对象(包括snapshot)。 事务写 txn.Set方法本质上将kv值写入了一个内存缓存(即kv/memdb_buffer.go中的memDbBuffer)中。该内存kv数据库利用的是golevel提供的功能。 事务回滚 直接将tikvTxn的valid字段…...

【C语言】函数指针和指针函数

文章目录[TOC](文章目录)前言概述函数指针定义:使用:回调函数指针函数前言 今天学一下函数指针 提示:以下是本篇文章正文内容,下面案例可供参考 概述 函数指针:是一个指向函数的指针,在内存空间中存放的…...

Nodejs中npx简介和作用

一、npx简介npm从5.25.2版开始,增加了 npx 命令。方便了我在项目中使用全局包。二、安装Node安装后自带npm模块,可以直接使用npx命令。如果不能使用用,就要手动安装一下。npm install -g npx三、使用npx想要解决的主要问题,就是调…...

Matplotlib精品学习笔记001——绘制3D图形详解+实例讲解

3D图片更生动,或许在时间序列数据的展示上更胜一筹 想法: 学习3D绘图的想法来自科研绘图中。我从事的专业是古植物学,也就是和植物化石打交道。化石有三大信息:1.物种信息,也就是它的分类学价值;2.时间信息…...

学习ifconfig实战技巧,成为网络管理高手

文章目录前言一. ifconfig 命令介绍二. 语法格式及常用选项三. 参考案例3.1 显示网络设备信息3.2 启动和关闭指定的网卡3.3 对指定的网卡设备执行修改IP地址操作3.4 启动和关闭ARP协议3.5 使用ifconfig添加网卡总结前言 大家好,又见面了,我是沐风晓月&a…...

day38|70. 爬楼梯(进阶)、322. 零钱兑换、279.完全平方数

70. 爬楼梯(进阶) 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1. 1 阶 1 阶 2. 2…...

SpringBoot全局异常处理

一、目的 当客户端/前端向服务端发送一个请求后,这个请求并不是每次都能完全正确的处理,比如出现一些资源不存在、参数错误或者内部错误等信息的时候,就需要将异常反馈给客户端或者前端。那么这就需要程序有完整的异常处理机制。 在 Java 中所…...

SpringBoot异常处理

目录 一、 错误处理 1. 默认规则 2. 定制错误处理逻辑 二、自定义异常处理 1. 实现 ErrorController 2. RestControllerAdvice/ControllerAdvice ExceptionHandler 实现自定义异常 3. 新建 UserController.class 测试 3 种不同异常的处理 4. 最终效果如下 补充 1. 参…...

《C++ Primer Plus》(第6版)第8章编程练习

《C Primer Plus》(第6版)第8章编程练习《C Primer Plus》(第6版)第8章编程练习1. 打印字符串2. CandyBar3. 将string对象的内容转换为大写4. 设置并打印字符串5. max5()6. maxn()7. SumArray()《C Primer Plus》(第6版…...

RAD Studio 11.3 Alexandria Crack

RAD Studio 11.3 Alexandria Crack 瞄准最新平台版本-此版本增加了对Android 13和Apple macOS Ventura的官方支持。它还支持Ubuntu 22 LTS和Microsoft Windows Server 2022。 使用生物特征认证-New为FireMonkey移动应用程序提供了新的移动生物特征认证组件。 部署嵌入式InterBa…...

Stm32 iic 协议使用

/* 第1个参数为I2C操作句柄 第2个参数为从机设备地址 第3个参数为从机寄存器地址 第4个参数为从机寄存器地址长度 第5个参数为发送的数据的起始地址 第6个参数为传输数据的大小 第7个参数为操作超时时间 */ HAL_I2C_Mem_Write(&hi2c2,salve_add,0,0,PA_BUFF,sizeof(PA_BUFF…...

Malware Dev 02 - Windows SDDL 后门利用之 SCManager

写在最前 如果你是信息安全爱好者,如果你想考一些证书来提升自己的能力,那么欢迎大家来我的 Discord 频道 Northern Bay。邀请链接在这里: https://discord.gg/9XvvuFq9Wb我拥有 OSCP,OSEP,OSWE,OSED&…...

每日一题29——山峰数组的顶部

符合下列属性的数组 arr 称为 山峰数组&#xff08;山脉数组&#xff09; &#xff1a; arr.length > 3 存在 i&#xff08;0 < i < arr.length - 1&#xff09;使得&#xff1a; arr[0] < arr[1] < ... arr[i-1] < arr[i] arr[i] > arr[i1] > ... &g…...

重庆铜梁网站建设价格/最近新闻热点大事件

1.方程ax2bxc0;一元二次方程。求根△b2-4ac;若△<0方程无实根△>0,方程有两个不相同的实根x1 x2若△0&#xff0c;方程有两个相同的实根x(-b加减根号下b*b-4ac)/2*a 调试后&#xff1a; 2. 输入一个年份&#xff0c;判断是否是闰年(能被4整除却不能被100整除的年份)。世纪…...

外贸人常去的网站/长春做网站公司长春seo公司

现在是BigData大数据的时代&#xff0c;最近几年最火的是当然属于Hadoop平台了&#xff0c;但是Hadoop虽然说比较好用&#xff0c;但是他的延时性&#xff0c;比较差的实时计算能力被人们所诟病。所以一个比较强大的分布式实时计算平台应用而生&#xff0c;他的名字叫Storm。 要…...

宝塔面板wordpress多站点/互联网营销师考试

在Ubuntu上实现局域网共享文件夹 如果你的系统是Ubuntu 14.04、14.10或12.04&#xff0c;有两个方法可以使你通过局域网在搭载Windows或其他Linux的电脑上共享本地文件。 对局域网中的每个用户提供无密码共享 仅限特定访问&#xff0c;提供文件夹密码保护 这篇文章包括两种方法…...

网站开发市场调查/google chrome官网下载

某天早晨上班的路上&#xff0c;遇到一个卖报纸的小女孩&#xff0c;小声的对我说&#xff0c;叔叔买份报纸吧&#xff0c;出于处在极速上班途中&#xff0c;一般很少放慢脚步&#xff0c;我习惯性说出不用了谢谢&#xff0c;甚至没有停下脚步的意思&#xff0c;在我跟她擦身而…...

app web网站 区别/上首页的seo关键词优化

什么是移动WEB开发&#xff0c;我个人理解就是&#xff0c;将网页更好的显示在移动端的一些设置&#xff0c;简单来说就两点如下&#xff1a; 1、流式布局&#xff0c;即百分比自适应布局 将body下的div容器的样式设置如下&#xff1a; div{ width:100%; } 2、viewport视口 在h…...

建立门派/抖音seo什么意思

Android右滑返回上一个界面的实现方法public class BaseActivity extends Activity implements OnTouchListener {public ProgressDialog progressDialog;public String states;public RequestQueue mQueue;/** 触摸时按下的点 **/PointF downP new PointF();/** 触摸时当前的…...