当前位置: 首页 > news >正文

使用wav2vec 2.0进行音位分类任务的研究总结

使用wav2vec 2.0进行音位分类任务的研究总结

原文名称Using wav2vec 2.0 for phonetic classification tasks: methodological aspects

研究背景

自监督学习在语音中的应用
  • 自监督学习在自动语音识别任务中表现出色,例如说话人识别和验证。
  • 变换器模型(如wav2vec 2.0)在处理几秒钟的语音序列时考虑上下文信息。
  • 研究问题:从单个音素提取的向量表示是否比从较长序列中提取的向量表示在检测鼻音方面表现更好?

研究方法

序列长度对比
  • 方法一:在音素持续时间内提取向量。
  • 方法二:在音素两侧各增加一秒,然后恢复中央部分。

数据资源与实验设置

训练和测试资源

训练数据

  • 使用四个不同的语料库:NCCFr、ESTER、PTSVOX 和 BREF。
  • 提取8个元音和6个鼻音及口音辅音,总计120,000个训练样本。

测试数据 :

  • 测试数据包括声学和生理数据,通过Aeromask面罩同时收集。
  • 六名男性法语母语者参与录音,记录了269个声音样本。
    在这里插入图片描述

实验协议

方法论

wav2vec 2.0 模型
  • 使用预训练的“wav2vec 2.0-FR-3K-large-LeBenchmark”模型。
  • 输入为原始音频信号,通过卷积编码器处理,每25毫秒转换成一个向量序列。
  • Transformer层捕捉整个序列的信息,包含24层,每层产生1,024维的潜在表示。
向量表示生成
  • 方法一:直接从音素边界提取向量,使用最大池化策略。
  • 方法二:添加前后各一秒的上下文信息,再从中提取中央部分的向量。
特征探测
  • 使用逻辑回归模型判断音素是否有鼻音特征。
  • 在训练和验证数据集上训练模型,然后应用于测试数据。

结果

鼻音检测性能

不同Transformer层的表现
  • 长序列在几乎所有层中都包含鼻音信息,而短序列在CNN编码器和前几层中鼻音特征更明显。
  • 第一层Transformer层在长序列中表现最佳,整体准确率为94.05%,短序列为81.04%。
    在这里插入图片描述
音素分类准确性
  • 某些音素如[˜O,E,m,n,d]分类准确率高,而其他音素如[o,a]分类困难。
  • 鼻音元音中,[˜E]最难检测,[˜O]最容易检测。
    在这里插入图片描述

分类器结果与生理数据比较

相关性分析
  • 使用Pearson相关系数分析鼻音概率与鼻气流的关系。
  • 归一化后的鼻气流与鼻音概率的相关性更强,且因音素和说话人不同而异。
  • 对于某些说话人,鼻气流可以解释错误分类的原因。
    在这里插入图片描述

总体而言,鼻音概率与按音素和说话人归一化的值最密切相关。这表明鼻腔气流是音素和说话人特有的。其次,说话人MT04的相关性最强,这一观察结果对两个模型都是常见的。然而,具有最低相关性的说话人根据音频片段长度和鼻腔气流测量而不同。

在这里插入图片描述

讨论与结论

序列长度对鼻音检测的影响

  • 长序列在鼻音检测中表现优于短序列,整体准确率更高。
  • 模型行为因音素和说话人而异,反映了发音器官位置的变化。

生理数据的验证

  • 鼻气流与鼻音概率之间存在显著相关性,验证了模型的有效性。
  • 长序列更好地捕捉了音素相关的鼻音特征和音素间的音系对比。

局限与未来研究

  • 尽管鼻气流减少,某些鼻音仍可感知,需要进一步的感知研究来验证模型结果。
  • 未来研究将关注更多情境下的鼻音检测,并探索感知层面的验证。

相关文章:

使用wav2vec 2.0进行音位分类任务的研究总结

使用wav2vec 2.0进行音位分类任务的研究总结 原文名称: Using wav2vec 2.0 for phonetic classification tasks: methodological aspects 研究背景 自监督学习在语音中的应用 自监督学习在自动语音识别任务中表现出色,例如说话人识别和验证。变换器模型…...

25/1/11 嵌入式笔记<esp32> 初入esp32

用Arduino平台,学习了点亮led灯。 //定义LED引脚 int led_pin 12;void setup() {//设定引脚为输出模式pinMode(led_pin,OUTPUT):}void loop() {// 点亮LED:digitalWrite(led_pin,HIGH);//延时1sdelay(1000);//熄灭LEDdigitalWrite(led_pin,LOW)://延时…...

基于SMT32U575RIT单片机-中断练习

任务 查看手册对所有的拓展板上和相对应的底板的引脚对应的端口找到以下结论 通过STM32MX软件对各个引脚进行相应的配置 1.第一种切换模式电脑发送 #include "main.h" #include "icache.h" #include "usart.h" #include "gpio.h"/*…...

在Django的Serializer的列表数据中剔除指定元素

【Python工作随笔】 提问 如何在List序列化方法中剔除不要的元素,例如在成绩中剔除0 class BasicDescriptionSubjectBoxPlotSerializer(serializers.Serializer):语文 serializers.ListField(sourcescore_chinese)数学 serializers.ListField(sourcescore_math…...

我喜欢的数学题

偏向抖机灵性质的,考察理解的,而不是比拼计算量的,可能跟现在岁数大了算不明白了多少有点关系吧。 高高手,别太重计算,给普通孩子留条路。就算将来真的理工治国,也没必要都往人形计算机方面引导。毕竟你未来…...

Redis解决热key问题

当Redis遇到热key问题时,即某个或某些key被频繁访问,可能导致单个Redis节点负载过高,影响整个系统性能。以下是一些常见的解决方案: 1. 缓存预热与复制 缓存预热:在系统启动阶段,将热key对应的value预先加…...

【git】-2 分支管理

目录 一、分支的概念 二、查看、创建、切换分支 1、查看分支-git branch 2、创建分支- git branch 分支名 3、切换分支- git checkout 分支名 三、git指针 -实现分支和版本间的切换 四、普通合并分支 git merge 文件名 五、冲突分支合并 ​​​​​​【git】-初始gi…...

Win11+WLS Ubuntu 鸿蒙开发环境搭建(二)

参考文章 penHarmony南向开发笔记(一)开发环境搭建 OpenHarmony(鸿蒙南向开发)——标准系统移植指南(一) OpenHarmony(鸿蒙南向开发)——小型系统芯片移植指南(二&…...

Meilisearch ASP.Net Core API 功能demo

安装 MeiliSearch 0.15.5 0.15.5demo code using Meilisearch; using System.Data; using System.Text.Json; using System.Text.Json.Serialization;namespace MeiliSearchAPI {public class MeilisearchHelper{public MeilisearchHelper(){DefaultClient…...

程序员独立开发竞品分析:确定网站使用什么建站系统

要确定一个网站使用的建站系统,可以通过以下几种方法尝试分析: 查看页面源代码: 打开网站,右键点击页面并选择“查看页面源代码”。在代码中查找一些常见的建站系统标志,例如: WordPress 的迹象&#xff1a…...

selenium+pyqt5自动化工具总结

说明:本工具是,操作外部google浏览器、selenium是无法操作qt界面中嵌套的浏览器的, 工具在后面 1. 代码结构 pycharm打开的文件下,再写一个子文件,文件导入的时候把子文件名带上 这样就可以在 外层使用命令 pyinst…...

docker GPU安装

docker 离线安装 docker下载地址:https://download.docker.com/linux/static/stable/x86_64/ 解压: tar xzvf docker-24.0.6.tgz移动解压后的内容 sudo mv docker/* /usr/local/bin/创建 docker.service配置文件 sudo vim /etc/systemd/system/dock…...

hutool糊涂工具通过注解设置excel宽度

import java.lang.annotation.*;Documented Retention(RetentionPolicy.RUNTIME) Target({ElementType.METHOD, ElementType.FIELD, ElementType.PARAMETER}) public interface ExcelStyle {int width() default 0; }/*** 聊天记录*/ Data public class DialogContentInfo {/**…...

Three.js教程015:全面讲解Three.js的UV与应用

文章目录 全面讲解UV与应用UV介绍代码演示完整代码全面讲解UV与应用 UV介绍 在 Three.js 中,UV 坐标(也称为纹理坐标)是用来定义纹理如何映射到三维模型上的一组二维坐标。UV 坐标的范围通常是 (0, 0) 到 (1, 1),其中: U 对应纹理的横向轴(类似于 X 轴)。V 对应纹理的…...

IOS界面传值-OC

1、页面跳转 由 ViewController 页面跳转至 NextViewController 页面 &#xff08;1&#xff09;ViewController ViewController.h #import <UIKit/UIKit.h>interface ViewController : UIViewControllerend ViewController.m #import "ViewController.h" …...

阿里mod_asr3.0集成webrtc静音算法

alibabacloud-nls-cpp-sdk-master 先到阿里官网下载nls库的源代码&#xff0c;编译生成对应的库文件和头文件。 我编译的放到了以下目录。 /home/jp/2025/alibabacloud-nls-cpp-sdk-master/build/install/NlsSdk3.X_LINUX/include/ /home/jp/2025/alibabacloud-nls-cpp-sdk-…...

[Git] git pull --rebase / git rebase origin/master

1. git pull --rebase 这个命令是用来更新当前分支的&#xff0c;它会从远程仓库拉取更新&#xff0c;然后将你的本地提交重新应用到更新后的基础之上。它相当于先执行 git fetch&#xff0c;然后在当前分支上执行 git rebase origin/。使用 --rebase 而不是默认的 merge 可以…...

Leetcode​​​​​​​3270:求出数字答案

题目描述&#xff1a; 给你三个 正 整数 num1 &#xff0c;num2 和 num3 。 数字 num1 &#xff0c;num2 和 num3 的数字答案 key 是一个四位数&#xff0c;定义如下&#xff1a; 一开始&#xff0c;如果有数字 少于 四位数&#xff0c;给它补 前导 0 。答案 key 的第 i 个数…...

第十一章 施工监测

11 施工监测 11.1 施工监测主要内容、常用仪器与方法 11.1.1 主要内容 1.目的和意义 及时掌握工程自身及周边环境风险动态、通过分析和预测工程结构及周边环境的安全状态与发展趋势&#xff0c;优化调整设计参数和施工参数提供数据支撑。为今后同类工程施工提供类比资料 2…...

Python爬虫应用领域

Python爬虫作为一种强大的数据获取工具&#xff0c;在多个领域发挥着重要作用。以下是Python爬虫在不同领域的应用情况&#xff1a; 一、数据采集与分析 &#xff08;一&#xff09;市场调研 产品信息收集&#xff1a;爬取电商平台的产品详情、价格、销量、用户评价等数据&am…...

软件架构考试基础知识 002:进程的状态与其切换

进程状态转换的说明 在操作系统中&#xff0c;进程的状态表示其当前的执行情况和资源占用情况。进程状态的转换反映了操作系统如何管理和调度进程。以下是进程状态转换的说明&#xff1a; 1. 三态模型&#xff08;Three-state Model&#xff09; 三态模型是最基础的进程状态模…...

新车月交付突破2万辆!小鹏汽车“激活”智驾之困待解

首次突破月交付2万辆规模的小鹏汽车&#xff0c;稳吗&#xff1f; 本周&#xff0c;高工智能汽车研究院发布的最新监测数据显示&#xff0c;2024年11月&#xff0c;小鹏汽车在国内市场&#xff08;不含出口&#xff09;交付量&#xff08;上险口径&#xff0c;下同&#xff09…...

VideoPlayer插件的功能和用法

文章目录 1. 概念介绍2. 使用方法2.1 实现步骤2.2 具体细节3. 示例代码4. 内容总结我们在上一章回中介绍了"如何获取文件类型"相关的内容,本章回中将介绍如何播放视频.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 播放视频是我们常用的功能,不过Flutter官方…...

.NET体系架构

引言 .NET是由微软开发的一个广泛应用的开发平台&#xff0c;旨在帮助开发者构建各种类型的应用程序&#xff0c;包括桌面应用、Web应用、移动应用和云服务。最初&#xff0c;.NET平台的构建主要集中在Windows环境上&#xff0c;但随着.NET Core和随后.NET 5及以上版本的推出&…...

QT中引入OpenCV库总结(qmake方式和cmake方式)

文章目录 前言opencv环境配置一、opencv库获取的两种方式二、qmake和cmake配置2.1、 qmake2.2、cmake2.2.1、引入opencv示例 三、qt与opencv对应关系四、问题 前言 我的软件环境&#xff0c;写在前面 Windows10QT5.12.12VS2017OpenCV4.5.4 opencv环境配置 一、opencv库获取…...

matlab系列专栏-快捷键速查手册

目录 1在命令窗口(Command Window)中 2. 在编辑器(Editor)&#xff08;m文件&#xff09;中 1在命令窗口(Command Window)中 1)【↑、↓】——切换到之前、之后运行过的命令&#xff0c;可以重复按多次来达到想要的命令。 2)【Tab】——自动补全。在Command窗口&#xff0c…...

对于 NestJS + TypeORM 查询构造器分页功能的简单二次封装

NestJS 作为 Node.js 领域备受欢迎的框架&#xff0c;其与 TypeORM 的结合为开发者提供了强大的 ORM 能力&#xff0c;简化了数据库操作。然而&#xff0c;在处理分页查询时&#xff0c;直接在每个服务方法中重复编写分页逻辑既不高效也容易出错。为此&#xff0c;我们可以通过…...

Kafka消息队列出现消息堆积如何解决

Kafka消息队列出现消息堆积&#xff0c;通常是由于消息生产速度远大于消费速度&#xff0c;可能由消费者处理能力不足、网络问题、Kafka配置不合理等原因导致。以下从多个方面介绍应对消息堆积的方法&#xff1a; 消费者端优化 提升消费并行度 增加消费者实例数量&#xff1a…...

LeetCode hot100-100

287. 寻找重复数 给定一个包含 n 1 个整数的数组 nums &#xff0c;其数字都在 [1, n] 范围内&#xff08;包括 1 和 n&#xff09;&#xff0c;可知至少存在一个重复的整数。假设 nums 只有 一个重复的整数 &#xff0c;返回 这个重复的数 。你设计的解决方案必须 不修改 数组…...

Vue.js:现代前端开发的灵活框架

大家好&#xff01;我是 [数擎 AI]&#xff0c;一位热爱探索新技术的前端开发者&#xff0c;在这里分享前端和 Web3D、AI 技术的干货与实战经验。如果你对技术有热情&#xff0c;欢迎关注我的文章&#xff0c;我们一起成长、进步&#xff01; 开发领域&#xff1a;前端开发 | A…...

炫彩发光字制作网站/广东网站se0优化公司

最近一直找java8相关新特性的文章&#xff0c;发现都太没有一个连贯性&#xff0c;毕竟大家写博客肯定都有自己的侧重点&#xff0c;这里找到一本书&#xff0c;专门介绍java8新特性的&#xff0c;感觉大家可以看看《写给大忙人看的JavaSE8》.这里我会结合书中的知识以及网上的…...

广州市研发网站建设价格/免费推广的平台都有哪些

CGI是干嘛的&#xff1f;CGI是为了保证web server传递过来的数据是标准格式的&#xff0c;方便CGI程序的编写者。 web server&#xff08;比如说nginx&#xff09;只是内容的分发者。比如&#xff0c;如果请求/index.html&#xff0c;那么web server会去文件系统中找到这个文件…...

我要免费发布信息/重庆关键词seo排名

1.打开IDEA,创建新项目&#xff0c;选择Spring Initializr&#xff0c;选择SDK为你的java版本。 2.点击下一步&#xff0c;输入Artifact 3.点击下一步&#xff0c;选择web 4.finish 5.完成后idea自动生成下列结构&#xff0c;框出来的可以删掉。 idea会为每个module生成一个app…...

wordpress 带数据/今日国际新闻头条15条

PHP递归实现无限分类数组处理1,php递归算法实现无限分类递归算法对无限分类的数组进行处理,分两种情况&#xff0c;一种树状展示(数组包含子数组)&#xff0c;一种非树状展示(子类按照顺序排在父类的下面&#xff0c;不出现数组包含)注意:在查询数据的时候&#xff0c;也可以把…...

医疗网站建设公司/关键词优化快速排名

随着时代和科技的快速发展和进步&#xff0c;智能手机已成为日常生活中的一件必需品。而今的智能手机除了外观设计、性价比&#xff0c;最重要的还有处理器和系统。目前主要的系统还是安卓&#xff0c;以及苹果的iOS&#xff0c;而手机在使用一段时间后&#xff0c;都会收到系统…...

智库网站建设方案/seo综合查询什么意思

1&#xff0c;html5的出现,使得浏览器的功能增强&#xff0c;不再仅仅是一个网页&#xff0c;而更像是一个平台。js因为得以调用 更多的系统功能&#xff0c;比如图像操作&#xff0c;摄像头&#xff0c;麦克风等等 2&#xff0c;node.js的出现。 Node.js项目使得JavaScri…...