当前位置：首页 > news >正文

RNN模型文本预处理--数据增强方法

news 文章来源：https://blog.csdn.net/DREAM_xs/article/details/144094505 2025/4/27 16:05:41

数据增强方法

数据增强是自然语言处理（NLP）中常用的一种技术，通过生成新的训练样本来扩充数据集，从而提高模型的泛化能力和性能。回译数据增强法是一种常见的数据增强方法，特别适用于文本数据。

回译数据增强法

定义

通过将一种语言翻译成不同的语言，再转换回来的一种方式。例如，将中文文本翻译成英文，然后再将英文翻译回中文。

优势

操作简便：只需要使用现有的翻译工具即可实现。
获得新语料质量高：翻译后的文本通常能够保持较高的语义一致性，且语法结构合理。

目的

增加数据集：通过生成新的训练样本来扩展数据集，从而提高模型的泛化能力。

存在的问题

高重复率：在短文本回译过程中，新语料与原语料可能存在很高的重复率，这并不能有效增大样本的特征空间。

高重复率解决办法

进行连续的多语言翻译：例如，中文→韩文→日语→英文→中文。最多只采用3次连续翻译，更多的翻译次数将产生效率低下、语义失真等问题。

使用工具

ChatGPT：可以利用 ChatGPT 进行多语言翻译。
有道翻译接口：基于有道翻译接口进行多语言翻译。

具体步骤

准备原始数据
- 收集并准备好需要增强的原始文本数据。
选择翻译工具
- 可以选择 ChatGPT 或者有道翻译接口等工具进行翻译。
进行多语言翻译
- 将原始文本翻译成另一种语言，再从该语言翻译回原始语言。
- 为了减少重复率，可以进行多次连续翻译，但不超过3次。
合并新旧数据
- 将生成的新文本与原始文本合并，形成扩增后的数据集。

示例代码

以下是使用有道翻译接口进行回译数据增强的示例代码：

import requests
import time# 有道翻译API
def translate(text, from_lang, to_lang):url = "http://fanyi.youdao.com/translate"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}data = {'doctype': 'json','type': f'{from_lang}-{to_lang}','i': text}response = requests.post(url, headers=headers, data=data)result = response.json()return result['translateResult'][0][0]['tgt']# 回译数据增强
def back_translation(text, lang_sequence):for i in range(len(lang_sequence) - 1):text = translate(text, lang_sequence[i], lang_sequence[i + 1])time.sleep(1)  # 防止请求过于频繁return text# 示例
original_text = "我喜欢编程。"
lang_sequence = ['zh', 'en', 'ko', 'ja', 'zh']
augmented_text = back_translation(original_text, lang_sequence)
print("Original Text:", original_text)
print("Augmented Text:", augmented_text)

使用 ChatGPT 进行回译

如果你使用的是 ChatGPT API，可以通过以下方式实现回译：

import openai# 设置 OpenAI API 密钥
openai.api_key = 'your_openai_api_key'# 使用 ChatGPT 进行翻译
def translate_with_chatgpt(text, from_lang, to_lang):prompt = f"Translate the following {from_lang} text to {to_lang}: {text}"response = openai.Completion.create(engine="text-davinci-003",prompt=prompt,max_tokens=100)return response.choices[0].text.strip()# 回译数据增强
def back_translation_with_chatgpt(text, lang_sequence):for i in range(len(lang_sequence) - 1):text = translate_with_chatgpt(text, lang_sequence[i], lang_sequence[i + 1])time.sleep(1)  # 防止请求过于频繁return text# 示例
original_text = "我喜欢编程。"
lang_sequence = ['Chinese', 'English', 'Korean', 'Japanese', 'Chinese']
augmented_text = back_translation_with_chatgpt(original_text, lang_sequence)
print("Original Text:", original_text)
print("Augmented Text:", augmented_text)

总结

回译数据增强法是一种简单且有效的方法，通过多语言翻译来生成新的训练样本。虽然存在一定的重复率问题，但通过连续多语言翻译可以有效缓解这一问题。

RNN模型文本预处理--数据增强方法

数据增强方法数据增强是自然语言处理（NLP）中常用的一种技术，通过生成新的训练样本来扩充数据集，从而提高模型的泛化能力和性能。回译数据增强法是一种常见的数据增强方法，特别适用于文本数据。回译数据增强法定义…...

编程日记 2024/12/1 22:47:02

maven 中＜packaging＞pom＜/packaging＞配置使用

在 Maven 项目的 pom.xml 文件中， 元素用于指定项目的打包类型。默认情况下，如果元素没有被显式定义，Maven 会假设其值为 jar。但是，当您设置 pom 时，这意味着该项目是一个 POM（Project Object Model&…...

编程日记 2024/12/1 22:44:59

【Python中while循环】

一、深拷贝、浅拷贝 1、需求 1）拷贝原列表产生一个新列表 2）想让两个列表完全独立开（针对改操作，读的操作不改变） 要满足上述的条件，只能使用深拷贝 2、如何拷贝列表 1）直接赋值 # 定义一个…...

编程日记 2024/12/1 22:42:57

【深度学习】服务器常见命令

1、虚拟环境的安装位置先进入虚拟环境 which python2、升序查看文件内容 ls -ltr3、查看服务器主机空间使用情况 df -hdf -h .4、查看本地空间使用情况 du -sh ./*du -sh * | sort -nr5、查找并删除进程 # 查找 ps aux# 删除 kill -KILL pid6、查看服务器配置 lscpuuna…...

编程日记 2024/12/1 22:40:54

技术分析模板

文章目录概要整体架构流程技术名词解释技术细节小结概要提示：这里可以添加技术概要例如： openAI 的 GPT 大模型的发展历程。整体架构流程提示：这里可以添加技术整体架构例如： 在语言模型中，编码器和解码器…...

编程日记 2024/12/1 22:39:53

python:文件操作

一、文件路径在Windows系统中，每个磁盘都有自己的根目录，用分区名加反斜杠来表示。我们定位文件的位置有两种方法，一种是绝对路径，另一种是相对路径。绝对路径是从根目录出发的路径，路径中的每个路径之间用反斜杠来分…...

编程日记 2024/12/1 22:37:50

Nginx和Apache有什么异同？

Nginx和Apache都是广泛使用的Web服务器软件，它们各自具有独特的特点和优势，适用于不同的应用场景。以下是关于Nginx和Apache的不同、相同以及使用区别的详细分析： 一、不同点资源占用与并发处理能力： Nginx使用更少的内存和CPU资…...

编程日记 2024/12/1 22:30:42

泰州榉之乡全托机构探讨：自闭症孩子精细动作训练之法

当发现自闭症孩子精细动作落后时，家长们往往会感到担忧和困惑。那么，自闭症孩子精细动作落后该如何训练呢？今天，泰州榉之乡全托机构就来为大家详细解答。榉之乡大龄自闭症托养机构在江苏、广东、江西等地都有分校，一直…...

编程日记 2024/12/1 22:29:41

Cookie跨域

跨域：跨域名（IP） 跨域的目的是共享Cookie。 session操作http协议，每次既要request，也要response，cookie在创建的时候会产生一个字符串然后随着response返回。全网站的各个页面都会带着登陆的时候的cookie …...

编程日记 2024/12/1 22:26:39

qt QGraphicsPolygonItem详解

1、概述 QGraphicsPolygonItem是Qt框架中QGraphicsItem的一个子类，它提供了一个可以添加到QGraphicsScene中的多边形项。通过QGraphicsPolygonItem，你可以定义和显示一个多边形，包括其填充颜色、边框样式等属性。QGraphicsPolygonItem支持各…...

编程日记 2024/12/1 22:22:35

“harmony”整合不同平台的单细胞数据之旅

其实在Seurat v3官方网站的Vignettes中就曾见过该算法，但并没有太多关注，直到看了北大张泽民团队在2019年10月31日发表于Cell的《Landscap and Dynamics of Single Immune Cells in Hepatocellular Carcinoma》，为了同时整合两类数据&#xf…...

编程日记 2024/12/1 22:21:34

如何构建一个可扩展、全球可访问的 GenAI 架构？

你有没有尝试过使用人工智能生成图像？ 如果你尝试过，你就会知道，一张好的图像的关键在于一个详细具体的提示。我不擅长这种详细的视觉提示，所以我依赖大型语言模型来生成详细的提示，然后使用这些提示来生成出色的图像…...

编程日记 2024/12/1 22:20:33

QT实战--qt各种按钮实现

本篇介绍qt一些按钮的实现，包括正常按钮；带有下拉箭头的按钮的各种实现；按钮和箭头两部分分别响应；图片和按钮大小一致；图片和按钮大小不一致的处理；文字和图片位置的按钮效果图如下： 详细实现…...

编程日记 2024/12/1 22:19:32

RNN And CNN通识

CNN And RNN RNN And CNN通识一、卷积神经网络（Convolutional Neural Networks，CNN）1. 诞生背景2. 核心思想和原理（1）基本结构：（2）核心公式：（3）关…...

编程日记 2024/12/1 22:17:30

生产环境中：Flume 与 Prometheus 集成

在生产环境中，将 Apache Flume 与 Prometheus 集成的过程，需要借助 JMX Exporter 或 HTTP Exporter 来将 Flume 的监控数据转换为 Prometheus 格式。以下是详细的实现方法，连同原理和原因进行逐步解释，让刚接触的初学者也能完成集…...

编程日记 2024/12/1 22:16:29

求平均年龄

求平均年龄 C语言代码C 代码Java代码Python代码 💐The Begin💐点点关注，收藏不迷路💐 班上有学生若干名，给出每名学生的年龄（整数），求班上所有学生的平均年龄，保留到小数…...

编程日记 2024/12/1 22:15:27

代码 AP_Arming_Sub.h #pragma once#include <AP_Arming/AP_Arming.h>class AP_Arming_Sub : public AP_Arming { public:AP_Arming_Sub() : AP_Arming() { }/* Do not allow copies */CLASS_NO_COPY(AP_Arming_Sub);bool rc_calibration_checks(bool display_failure)…...

编程日记 2024/12/1 22:14:26

【NLP 2、机器学习简介】

人生的苦难不过伏尔加河上的纤夫 —— 24.11.27 一、机器学习起源机器学习的本质 —— 找规律通过一定量的训练样本找到这些数据样本中所蕴含的规律规律愈发复杂，机器学习就是在其中找到这些的规律，挖掘规律建立一个公式，导致对陌生的数…...

编程日记 2024/12/1 22:13:25

数据结构与算法——N叉树（自学笔记）

本文参考 N 叉树 - LeetBook - 力扣（LeetCode）全球极客挚爱的技术成长平台遍历前序遍历：A->B->C->E->F->D->G后序遍历：B->E->F->C->G->D->A层序遍历：A->B->C->D->…...

编程日记 2024/12/1 22:09:21

【趣味升级版】斗破苍穹修炼文字游戏HTML,CSS,JS

目录图片展示开始游戏手动升级（满100%即可升级） 升级完成，即可解锁打怪模式新增功能说明： 如何操作： 完整代码实现一个简单的斗破苍穹修炼文字游戏，你可以使用HTML、CSS和JavaScript结合来构建…...

编程日记 2024/12/1 22:08:20

【Oracle】个人收集整理的Oracle常用SQL及命令

【建表】 create table emp( id number(12), name nvarchar2(20), primary key(id) ); 【充值一】 insert into emp select rownum,dbms_random.string(*,dbms_random.value(6,20)) from dual connect by level<101; 【充值二】 begin for i in 1..100 loop inser…...

编程日记 2024/12/1 22:03:14

Linux内核4.14版本——ccf时钟子系统（5）——通用API

1. clk_get 1.1 __of_clk_get_by_name 1.2 clk_get_sys 2. clk_prepare_enable 2.1 clk_prepare 2.2 clk_enable 3. clk_set_rate 1. clk_get clock get是通过clock名称获取struct clk指针的过程，由clk_get、devm_clk_get、clk_get_sys、of_clk_get、of_clk_g…...

编程日记 2024/12/1 22:01:12

安装MySQL 5.7 亲测有效

前言：本文是笔者在安装MySQL5.7时根据另一位博主大大的安装教程基础上做了一些修改而成首先在这里表示对博主大大的感谢下面附博主大大地址下面的步骤言简意赅跟着做就不会出错希望各位读者耐下心来慢慢解决安装中出现的问题~MySQL 5.7 安装教程（全…...

编程日记 2024/12/1 21:59:07

《Django 5 By Example》阅读笔记：p455-p492

《Django 5 By Example》学习第 16 天，p455-p492 总结，总计 38 页。一、技术总结 1.myshop (1)打折功能使用折扣码实现，但是折扣码是手动生成的，感觉实际业务中应该不是这样的。 (2)推荐功能使用 Redis 做缓存&#xff0…...

编程日记 2024/12/1 21:58:06

Element-UI 官网的主题切换动画

文章目录实现圆形扩散过渡动画实现一下 Element-UI 官网的主题切换动画加粗样式实现首先我们起一个 html 文件，写一个按钮，以及简单的背景颜色切换，来模拟主题的切换想要实现过渡效果，需要先用到一个 JavaScript 的原生方…...

编程日记 2024/12/1 21:57:05

Golang 构建学习

Golang 构建学习如何搭建Golang开发环境 1. 下载GOlang包 https://golang.google.cn/dl/ 在地址上下载Golang 2. 配置包环境修改全局环境变量，GOPROXY，GOPATH，GOROOT GOPROXYhttps://goproxy.cn,direct GOROOT"" // go二进…...

编程日记 2024/12/1 21:53:01

VM Virutal Box的Ubuntu虚拟机与windows宿主机之间设置共享文件夹(自动挂载，永久有效）

本文参考如下链接 How to access a shared folder in VirtualBox? - Ask Ubuntu （1）安装增强功能（Guest Additions） 首先，在网上下载VBoxGuestAdditions光盘映像文件下载地址：Index of http://…...

编程日记 2024/12/1 21:52:00

分析系统滴答时钟（tickClock），设置72MHz系统周期，如何实现1毫秒的系统时间？

一、CubeMX相关配置 1.1 相关引脚配置 1.2 相关时钟数配置 1.3 打开程序源码二、相关函数分析...

编程日记 2024/12/1 21:50:59

C++优选算法十七多源BFS

1.单源最短路问题一个起点一个终点。定义：在给定加权图中，选择一个顶点作为源点，计算该源点到图中所有其他顶点的最短路径长度。 2.多源最短路问题定义：多源最短路问题指的是在图中存在多个起点，需要求出从这些…...

编程日记 2024/12/1 21:49:58

Mongodb入门到放弃

Mongodb分片概括分片在多台服务器上分布数据的方法， Mongodb使用分片来支持具有非常大的数据集和高吞吐量的操作的部署具有大数据集和高吞吐量应用程序的数据库系统，可以挑战单台服务器的容量。例如，高查询率可以耗尽服务器的cpu容量&…...

编程日记 2024/12/1 21:48:57

RNN模型文本预处理--数据增强方法

回译数据增强法

具体步骤

示例代码

使用 ChatGPT 进行回译

总结

相关文章：

RNN模型文本预处理--数据增强方法

maven 中＜packaging＞pom＜/packaging＞配置使用

【Python中while循环】

【深度学习】服务器常见命令

技术分析模板

python:文件操作

Nginx和Apache有什么异同？

泰州榉之乡全托机构探讨：自闭症孩子精细动作训练之法

Cookie跨域

qt QGraphicsPolygonItem详解

“harmony”整合不同平台的单细胞数据之旅

如何构建一个可扩展、全球可访问的 GenAI 架构？

QT实战--qt各种按钮实现

RNN And CNN通识

生产环境中：Flume 与 Prometheus 集成

求平均年龄

Ardusub源码剖析(1)——AP_Arming_Sub

【NLP 2、机器学习简介】

数据结构与算法——N叉树（自学笔记）

【趣味升级版】斗破苍穹修炼文字游戏HTML,CSS,JS

【Oracle】个人收集整理的Oracle常用SQL及命令

Linux内核4.14版本——ccf时钟子系统（5）——通用API

安装MySQL 5.7 亲测有效

《Django 5 By Example》阅读笔记：p455-p492

Element-UI 官网的主题切换动画

Golang 构建学习

VM Virutal Box的Ubuntu虚拟机与windows宿主机之间设置共享文件夹(自动挂载，永久有效）

分析系统滴答时钟（tickClock），设置72MHz系统周期，如何实现1毫秒的系统时间？

C++优选算法十七多源BFS

Mongodb入门到放弃