当前位置: 首页 > news >正文

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Abstract

该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。

introduction

本文讨论了文档分类,这是机器学习中的一项标准任务,包括电子邮件过滤和新闻文章聚类等应用程序。传统的文本分类过程依赖于监督或半监督方法,这些方法需要标注的数据才能达到足够的准确性。但是,拟议的方法旨在使用每份文档中相关单词之间的文本相似性以及通过人类专业知识和语言模型丰富每个类别的关键字字典进行无监督分类。当需要低成本文本分类时,这种方法提供了另一种解决方案,其在运营风险事件分类中的应用示例就说明了这一点,这些应用来自银行部门管理定期与监管机构共享的描述各种类型的风险(包括内部/外部欺诈、网络安全问题等)的历史数据集。

contributions

本文的主要贡献是提出了一种无监督的方法,使用文本相似度和每个类别的关键字字典将文档分为几类。该方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。此外,对5个标准语料库的实验表明,与仅依赖人类专业知识相比,所提出的方法提高了F1分数,也可以与简单的监督方法相提并论。最后,运营风险事件分类中的一个应用示例说明了这种方法在其最初的灵感领域之外如何在实践中使用。

Literature survey

本文的文献调查侧重于为克服标准文本分类中对大量带注释数据的要求而提出的技术。大多数方法包括半监督方法,这些方法利用一小部分带标签的文档为其余文档导出标签,例如Nigam等人的期望最大化(EM)算法(2000)。重复此过程直到收敛,并且已成功生成无需完全手动注释的带标签示例。

Limitations

本文的局限性包括:

  • 所提出的方法依赖于每个类别的关键字字典,该字典可能不够全面或准确,无法涵盖某些领域中文档的全部范围和复杂性。
  • 尽管与仅依靠人类专业知识相比,实验显示出令人鼓舞的结果,但其性能仍低于使用带有大型标签数据集的监督方法所达到的效果。因此,当需要高精度分类时,它可能不适合。
  • 尽管超出其原始灵感领域的应用示例说明了这种方法如何在实践中更普遍地在不同行业中发挥作用,但用例在被广泛采用之前需要进一步验证。

Practical implications

本文的实际含义是,它提出了一种无监督的方法,使用文本相似度对文档进行分类,并为每个类别提供一个通过人类专业知识和语言模型丰富而丰富的关键字词典。当需要低成本文本分类时,这种方法提供了一种具有成本效益的替代方案,如其最初灵感来自的银行部门管理领域之外的运营风险事件分类中的应用示例所示。所提出的方法可用于需要以合理的精度进行文档分类的不同行业,无需大型带标签的数据集或大量的手动注释工作。

Methods

本文中使用的方法包括:

  • 基于每个文档中相关单词之间的文本相似度以及每个类别的关键字字典的无监督文本分类。
  • 通过人类专业知识和语言模型(包括通用和特定领域)丰富标签词典。
  • 在文档方面执行标准清理步骤,以在处理之前删除不相关的信息。
  • 在类别标签方面实施了一系列丰富步骤,以便迭代地扩展标签词典。

dataset

该论文使用了五个标准文本分类语料库进行评估。论文简要描述了这些数据集,包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者汇总了每个数据集的训练集和测试集,将其用作整个语料库,因为他们采用了无监督方法,不需要在训练测试拆分之间进行标记数据分离。

Results

论文的结果表明,拟议的使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典的表现优于简单的无监督基线,从而使所有语料库的F1分数翻了一番。对五个标准文本分类数据集的实验表明,除了Yahoo-Answers数据集的性能相似的Yahoo-Answers数据集外,仅使用特定领域的嵌入在大多数指标上的性能要优于单独使用通用嵌入的性能。仅如一些实验结果所示,与嵌入相比,组合丰富,可以适度提高性能。总体而言,当需要低成本文本分类时,该方法可以提供替代方案,无需大型带标签的数据集或大量的手动注释工作,同时与某些条件下的监督方法相比,可以实现合理的准确性。

Conclusions

该论文的结论是,与某些条件下的监督方法相比,使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典可以提供合理的准确性。当需要低成本文本分类时,所提出的方法提供了一种经济实惠的替代方案,无需大型带标签的数据集或大量的手动注释工作,如其在最初启发的银行部门管理领域之外的运营风险事件分类中的应用示例所示。进一步的研究可以探讨诸如ELMO(Peters等人,2018年)和BERT(Devlin等人,2018年)之类的单词嵌入的最新进展能否为这种方法带来更多好处。

Future works

该论文提出了几项可以探索的未来作品,包括:

-研究如何使用诸如ELMO和BERT之类的单词嵌入方面的最新进展,以进一步提高性能。
-探索丰富人类专业知识和语言模型以外的类别标签的不同方法,例如使用外部知识库或本体论。
-针对复杂程度和领域特异性不同的其他文本分类任务评估所提出的方法。
-将这种无监督方法与更复杂的监督方法(例如标记数据可用时的深度学习架构)进行比较。

这些潜在的研究途径可以帮助扩展本文提出的发现,同时还可以为如何在不牺牲准确性的情况下最好地进行低成本文本分类提供新的见解。

相关文章:

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings Abstract 该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别…...

linux进程管理

进程管理 进程是启动的可执行程序的一个指令 1、进程简介 (1)进程的组成部分 已分配内存的地址空间安全属性,包括所有权凭据和特权程序代码的一个或多个执行线程进程状态 (2)程序和进程的区别 程序是一个静态的二进制…...

【深度强化学习】(6) PPO 模型解析,附Pytorch完整代码

大家好,今天和各位分享一下深度强化学习中的近端策略优化算法(proximal policy optimization,PPO),并借助 OpenAI 的 gym 环境完成一个小案例,完整代码可以从我的 GitHub 中获得: https://gith…...

【数据结构】第二站:顺序表

目录 一、线性表 二、顺序表 1.顺序表的概念以及结构 2.顺序表的接口实现 3.顺序表完整代码 三、顺序表的经典题目 1.移除元素 2.删除有序数组中的重复项 3.合并两个有序数组 一、线性表 在了解顺序表前,我们得先了解线性表的概念 线性表(linear…...

嵌入式安防监控项目——实现真实数据的上传

目录 一、相关驱动开发 二、A9主框架 三、脚本及数据上传实验 https://www.yuque.com/uh1h8r/dqrma0/tx0fq08mw1ar1sor?singleDoc# 《常见问题》 上个笔记的相关问题 一、相关驱动开发 /* mpu6050六轴传感器 */ i2c138B0000 { /* #address-cells <1>…...

SAP 生成UUID

UUID含义是通用唯一识别码 (Universally Unique Identifier)&#xff0c;这 是一个软件建构的标准&#xff0c;也是被开源软件基金会 (Open Software Foundation, OSF) 的组织应用在分布式计算环境 (Distributed Computing Environment, DCE) 领域的一部分。 UUID-Universally…...

DevOPs介绍,这一篇就足够了

一、什么是DevOps&#xff1f; DevOps是一种将软件开发和IT运维进行整合的文化和运动。它的目标是通过加强软件开发、测试和运维之间的协作和沟通&#xff0c;使整个软件开发和交付过程更加高效、快速、安全和可靠。DevOps涵盖了从计划和设计到开发、测试、交付和部署的全生命…...

libcurl库简介

一、libcurl简介libcurl是一个跨平台的网络协议库&#xff0c;支持http, https, ftp, gopher, telnet, dict, file, 和ldap 协议。libcurl同样支持HTTPS证书授权&#xff0c;HTTP POST, HTTP PUT, FTP 上传, HTTP基本表单上传&#xff0c;代理&#xff0c;cookies,和用户认证。…...

Spark SQL支持DataFrame操作的数据源

DataFrame提供统一接口加载和保存数据源中的数据&#xff0c;包括&#xff1a;结构化数据、Parquet文件、JSON文件、Hive表&#xff0c;以及通过JDBC连接外部数据源。一个DataFrame可以作为普通的RDD操作&#xff0c;也可以通过&#xff08;registerTempTable&#xff09;注册成…...

Java【归并排序】算法, 大白话式图文解析(附代码)

文章目录前言一、排序相关概念1, 什么是排序2, 什么是排序的稳定性3, 七大排序分类二、归并排序1, 图文解析2, 代码实现三、性能分析四、七大排序算法总体分析前言 各位读者好, 我是小陈, 这是我的个人主页 小陈还在持续努力学习编程, 努力通过博客输出所学知识 如果本篇对你有…...

【springboot】数据库访问

1、SQL 1、数据源的自动配置-HikariDataSource 1、导入JDBC场景 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jdbc</artifactId></dependency>数据库驱动&#xff1f; 为什么导入JD…...

普通和hive兼容模式下sql的差异

–odps sql –– –author:宋文理 –create time:2023-03-08 15:23:52 –– – 差异分为三块 – 1.运算符的差异 – 2.类型转换的差异 – 3.内建函数的差异 – 以下是运算符的差异&#xff1a; – BITAND&#xff08;&&#xff09; – 当输入参数是BIGINT类型的时候&…...

github开源自己代码

接下来&#xff0c;我们需要先下载Git&#xff0c;的网址&#xff1a;https://git-scm.com/downloads&#xff0c;安装时如果没有特殊需求&#xff0c;一直下一步就可以了&#xff0c;安装完成之后&#xff0c;双击打开Git Bash 出现以下界面&#xff1a; 第一步&#xff1a;…...

数据库基础语法

sql&#xff08;Structured Query Language 结构化查询语言&#xff09; SQL语法 use DataTableName; 命令用于选择数据库。set names utf8; 命令用于设置使用的字符集。SELECT * FROM Websites; 读取数据表的信息。上面的表包含五条记录&#xff08;每一条对应一个网站信息&…...

【Java】期末复习知识点总结(4)

适合Java期末的复习~ &#xff08;Java期末复习知识点总结分为4篇&#xff0c;这里是最后一篇啦&#xff09;第一篇~https://blog.csdn.net/qq_53869058/article/details/129417537?spm1001.2014.3001.5501第二篇~https://blog.csdn.net/qq_53869058/article/details/1294751…...

IDEA好用插件:MybatisX快速生成接口实体类mapper.xml映射文件

目录 1、在Idea中找到下载插件&#xff0c;Install&#xff0c;重启Idea 2、一个测试java文件&#xff0c;里面有com包 3、在Idea中添加数据库 --------以Oracle数据库为例 4、快速生成entity-service-mapper方法 5、查看生成的代码 6、自动生成&#xff08;增删查改&#xff0…...

【JavaEE】初识线程

一、简述进程认识线程之前我们应该去学习一下“进程" 的概念&#xff0c;我们可以把一个运行起来的程序称之为进程&#xff0c;进程的调度&#xff0c;进程的管理是由我们的操作系统来管理的&#xff0c;创建一个进程&#xff0c;操作系统会为每一个进程创建一个 PCB&…...

智慧水务监控系统-智慧水务信息化平台建设

平台概述柳林智慧水务监控系统&#xff08;智慧水务信息化平台&#xff09;是以物联感知技术、大数据、智能控制、云计算、人工智能、数字孪生、AI算法、虚拟现实技术为核心&#xff0c;以监测仪表、通讯网络、数据库系统、数据中台、模型软件、前台展示、智慧运维等产品体系为…...

【Linux】进程优先级前后台理解

环境&#xff1a;centos7.6&#xff0c;腾讯云服务器Linux文章都放在了专栏&#xff1a;【Linux】欢迎支持订阅&#x1f339;相关文章推荐&#xff1a;【Linux】冯.诺依曼体系结构与操作系统【Linux】进程理解与学习&#xff08;Ⅰ&#xff09;浅谈Linux下的shell--BASH【Linux…...

时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元)

时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元) 目录 时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元)效果一览基本描述模型描述程序设计参考资料效果一览...

python 模拟鼠标,键盘点击

信息爆炸 消息轰炸模拟鼠标和键盘敲击import time from pynput.keyboard import Controller as key_col from pynput.mouse import Button,Controller def keyboard_input(insertword):keyboardkey_col()keyboard.type(insertword)def mouth():mouseController()mouse.press(…...

【CSS】盒子边框 ③ ( 设置表格细线边框 | 合并相邻边框 border-collapse: collapse; )

文章目录一、设置表格细线边框1、表格示例2、合并相邻边框3、完整代码示例一、设置表格细线边框 1、表格示例 给定一个 HTML 结构中的表格 , 默认样式如下 : <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8" />…...

TensorRT量化工具pytorch_quantization代码解析(一)

量化工具箱pytorch_quantization 通过提供一个方便的 PyTorch 库来补充 TensorRT &#xff0c;该库有助于生成可优化的 QAT 模型。该工具包提供了一个 API 来自动或手动为 QAT 或 PTQ 准备模型。 API 的核心是 TensorQuantizer 模块&#xff0c;它可以量化、伪量化或收集张量的…...

【Kubernetes】第二十七篇 - 布署前端项(下)

一&#xff0c;前言 上一篇&#xff0c;介绍了前端项目的部署&#xff1a;项目的创建和 jenkins 配置&#xff1b; 本篇&#xff0c;创建 Deployment、Service&#xff0c;完成前端项目的部署&#xff1b; 二&#xff0c;创建 Deployment 创建 Deployment 配置文件&#xff…...

【MFC】两个ListBox控件数据交互

一.控件ID名称 界面如图下所示&#xff1a; 候选数据列表的ID为&#xff1a; 已选数据列表的ID为&#xff1a; 二.数据添加 可以使用以下代码往框中添加数据&#xff1a; ((CListBox *)GetDlgItem(IDC_LIST_TO_CHO))->AddString("测试数据"); 显示效果如下&#…...

sklearn库学习--SelectKBest 、f_regression

目录 一、SelectKBest 介绍、代码使用 介绍&#xff1a; 代码使用&#xff1a; 二、评分函数 【1】f_regression&#xff1a; &#xff08;1&#xff09;介绍&#xff1a; &#xff08;2&#xff09;F值和相关系数 【2】除了f_regression函数&#xff0c;还有一些适用于…...

蓝桥杯刷题第十三天

第一题&#xff1a;特殊日期问题描述对于一个日期&#xff0c;我们可以计算出年份的各个数位上的数字之和&#xff0c;也可以分别计算月和日的各位数字之和。请问从 1900 年 11 月 1 日至 9999 年 12 月 31 日&#xff0c;总共有多少天&#xff0c;年份的数位数字之和等于月的数…...

CPU 和带宽之间的时空权衡

在 从一道面试题看 TCP 的吞吐极限 一文的开始&#xff0c;我提到在环形域上两个数字比较大小的前提是在同一个半圆内&#xff0c;进而得到滑动窗口最大值被限定在一个环形域的一半。 现在来看更为基本的问题。如果序列号只有 2bit&#xff0c;甚至仅有 1bit&#xff0c;保序传…...

ES+Redis+MySQL,这个高可用架构设计太顶了!

一、背景 会员系统是一种基础系统&#xff0c;跟公司所有业务线的下单主流程密切相关。如果会员系统出故障&#xff0c;会导致用户无法下单&#xff0c;影响范围是全公司所有业务线。所以&#xff0c;会员系统必须保证高性能、高可用&#xff0c;提供稳定、高效的基础服务。 …...

【Maven】Maven的常用命令

目录 一、Maven的常用命令 1、compile 编译命令 2、test 测试命令 3 、clean 清理命令 4、package 打包命令 5、 install 安装命令 6、Maven 指令的生命周期 二、maven 的概念模型 &#x1f49f; 创作不易&#xff0c;不妨点赞&#x1f49a;评论❤️收藏&#x1f499;一…...

做网站好多钱/百度一下官网首页登录

通过这个网站上传excel:http://www.docpe.com/excel/excel-to-html.aspx 然后转换,将压缩包打开,实际就是一个html. 找到table标签的开始和结束,直接将这一大段考到md文件里面即可… 有一点很坑爹,就是如果你一行都是英文,好比包名,markdown不会将其压缩,导致包名就很长一行,其…...

ui交互动效 wordpress/电子商务平台有哪些

文章目录写在开头的话功能需求演示写在最后的话&#xff1a;这里是一段防爬虫文本&#xff0c;请读者忽略。 本文原创首发于CSDN&#xff0c;作者IDYS 博客首页&#xff1a;https://blog.csdn.net/weixin_41633902/ 本文链接&#xff1a;https://blog.csdn.net/weixin_41633902…...

山东建设项目环境影响登记网站/网站搜索引擎优化的方法

一 背景Flink 和 ClickHouse 分别是实时流式计算和 OLAP 领域的翘楚&#xff0c;很多互联网、广告、游戏等客户都将两者联合使用于构建用户画像、实时 BI 报表、应用监控指标查询、监控等业务&#xff0c;形成了实时数仓解决方案&#xff08;如图-1&#xff09;。这些业务对数…...

免费真人做爰网站/网络销售怎么找客源

转载于:https://blog.51cto.com/chenxing/45771...

德宏北京网站建设/云和数据培训机构怎么样

DNS许多服务的基础&#xff0c;如&#xff1a;在网络发送邮件、浏览网页文件等都依赖DNS服务&#xff0c;如果没有DNS的配合&#xff0c;那么网络技术推广与发展必受到限制。既然它这么重要我们就有必要对它的学习更深入一些&#xff0c;下面介绍一些比较重要方面的信息&#x…...

织梦可以做家教网站吗/佛山市seo推广联系方式

Lind.DDD.Authorization是Lind.DDD框架的组成部分&#xff0c;之所以把它封装到框架里&#xff0c;原因就是它的通用性&#xff0c;几乎在任何一个系统中&#xff0c;都少不了用户授权功能&#xff0c;用户授权对于任何一个系统来说都是必要的&#xff0c;像管理型的页面都需要…...