当前位置: 首页 > news >正文

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录

    • 引言
    • 正文
      • Abstract
            • 模型基本结构
            • 模型效果汇总
      • Introduction介绍
            • 跨语言任务的独特性
            • 思路启发和变化
            • 如何使用预定义好的音频特征
            • 如何使用预定义好的语言模型——语言模型中获取韵律信息
            • 结果说明
      • Dataset数据集
      • Mthods方法
        • 使用设计好的特征进行AD检测
          • 使用的特征
          • 分类和训练方法
        • 3.2 微调预训练的语言模型实习AD检测
      • Submission description and results
      • Conclusion
        • 问题
    • 总结
    • 引用

引言

  • 这篇文章在整个排名中,位列第三,是少有的性能比baseline效果要好的,需要好好阅读一下。

正文

Abstract

模型基本结构
  • 这篇文章是介绍根据自发语音实现多语种AD检测,我们的方法主要有两部分构成:
    • 使用不同的音频特征和静音相关的信息,进行AD检测和MMSE预测
    • 调整wav2vec2.0语言识别模型,将之应用在不同的频段上
模型效果汇总
  • 整体性能是好于baseline模型的,主要分两个方面进行介绍
  • AD检测方面,准确率是73.9%,通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
  • MMSE回归阶段,RMSE的值为4.610,主要是融合eGeMAPS和静音特征

Introduction介绍

跨语言任务的独特性
  • 目前根本没有任何研究是探索有哪些语音特征,能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的,提出了一个基于自发语音的多语言AD检测比赛。
  • 这个比赛主要分为两类,分别是分类任务和MMSE回归任务,都是在英语上进行训练,然后使用希腊语进行训练的。
思路启发和变化
  • 《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了,对于单模态AD检测而言,语言不流利和预训练的语言模型是十分有效的。
  • 基于此,为了应对这个挑战,我们尝试了两种方法:
    • 使用预先定义好的音频特征
    • 使用预训练的大语言模型
如何使用预定义好的音频特征
  • 第一种方式是使用设计好的音频特征,进行AD检测。静音相关的音频特征和语言是独立的,并且适合别的特征进了融合,在这里,我们是用XGBoost进行Ad分类,使用SVR和XGBoost进行MMSE回归任务。
  • XGBoost
  • SVR
如何使用预定义好的语言模型——语言模型中获取韵律信息
  • 第二种方法是微调预训练的语言模型,用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型,然后使用低通滤波处理语音信号,保留语言通用韵律信息,这些信息是低频的,然后过滤那些高频的信息,比如说特定于语言的音素信息
结果说明
  • 通过对预训练的wav2vec模型进行微调,使之适应0-1000hz频段的语音,模型在Ad分类的准确率上达到了73.9%
  • 通过将静音特征和eGeMAPS信息进行融合,对于MMSE的回归任务的RMSE分数达到了4.610

Dataset数据集

  • 数据集使用的是ADReSS-M,包括了希腊语和英语两种语言的语音录音。
    • 训练集:237段英语样例,8段希腊语样例
    • 测试集:46段希腊语样例
  • 训练过程中,37段英语数据作为验证集,200段音频作为训练集
  • 8段希腊语作为我们希腊语的验证数据集
  • 然后希腊语和英语的验证集会被同时用来进行训练

Mthods方法

使用设计好的特征进行AD检测
使用的特征
  • 为了获取跨语言的音频表示,基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**,我们设计了10种静音特征,具体构成如下

    • 每秒钟的静音次数
    • 静音时间和语音持续时间的比率
    • 静音和语音持续时间的统计特征(最大值、最小值、平均值和标准偏差
  • 使用两个声音活动检测工具来定位静音段落的位置,具体使用的工具如下

    • pyannote的递归神经网络
    • 查询概率结束分类器:Improved end-of-query detection for streaming speech recognition

其他声音特征

  • 使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS(eGM)作为低频语音特征

其他语言特征

  • 使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
  • 然后还有其他的人口统计特征
分类和训练方法
  • 这里使用XGBoost作为AD检测任务,然后使用SVR和XGBoost进行组合,实现MMSE的回归任务
  • 将基于单个特征的分类模型任务进行集成学习,提高模型额准确率。
  • 对于特征分类,这里使用了集成学习策略,包括了早期融合、特征拼接还有后期融合,甚至还有权重投票等多种方式进行测试
  • 对于MMSE的回归任务,这里是平均多个预测回归模型输出,然后将平均结果作为最终的输出,这些效果要好于特征融合和权重投票的方式
3.2 微调预训练的语言模型实习AD检测
  • 看了这个不禁开始感叹,这是什么条件,我靠!他用了8张A100GPU来训练600,000次。

  • 为了能够尽快提高跨语言音频表示的学习,我们预训练了一个基于希腊语和英语的双语wav2vec-base模型,主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练,英语和希腊语各50个小时

  • 现有的(“facebook/wav2vec2-large-xlsr-53”)和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调(平均汇集输出上具有 Sigmoid 激活函数的线性层)。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到,对于大多数频率 epoch 配置,我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后,采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。

  • 这里没有使用facebook公开的XSLR进行训练,而是自己进行微调的wav2vec模型进行训练

Submission description and results

  • 对于AD检测和MMSE回归任务,分别提交了5次。Ad检测是ID从1到5,MMSE回归任务是ID从6到10.

  • 关于Ad检测任务的结果如下

  • 最终ID5的结果最好,说明基于平衡的双语数据的预训练模型效果最好,能够有效实现跨语言检测。

在这里插入图片描述

  • 回归任务这里就不细看了,又没有相关的数据集,不值得。

Conclusion

  • 通过微调我们预训练的双语模型wav2vec2.0,在0-1000Hz波段的音频数据,我们在分类人中的准确率到达了73.9%,最终的结果表明,使用平衡过后的多语言数据集,并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
  • 回归任务使用了eGeMAPS和静音特征,效果比基本的模型要好,说明这两个指标的效果很好。
问题

总结

引用

相关文章:

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录 引言正文Abstract模型基本结构模型效果汇总 Introduction介绍跨语言任务的独特性思路启发和变化如何使用预定义好的音频特征如何使用预定义好的语言模型——语言模型中获取韵律信息结果说明 Dataset数据集Mthods方法使用设计好的特征进行AD检测使用的特征分类和训练方…...

第一百七十五回 如何创建放射形状渐变背景

文章目录 1. 概念介绍2. 实现方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 我们在 上一章回中介绍了"如何创建扇形渐变背景"相关的内容,本章回中将介绍" 如何创建放射形状渐变背景"。闲话休提,让我们一起Talk Flutter吧…...

vue实现调用手机拍照、录像功能

目录 前言 准备工作 在这个示例中,我们将使用Vue.js框架来实现我们的目标。如果你还不熟悉Vue.js,推荐先学习一下Vue.js的基础知识。 接下来,我们需要创建一个基于Vue.js的项目。你可以使用Vue CLI来创建一个全新的Vue项目:# 安…...

WPF播放视频

在WPF中&#xff0c;你可以使用MediaElement来播放本地视频。下面是一个简单的例子&#xff1a; <Window x:Class"WPFVideoPlayer.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsof…...

交换机如何配置BGP协议

环境&#xff1a; 华为交换机 华三交换机 问题描述&#xff1a; 交换机如何配置BGP协议 解决方案&#xff1a; 华三交换机上配置案例 1.配置BGP协议&#xff0c;可以按照以下步骤进行&#xff1a; 登录交换机&#xff1a;使用SSH、Telnet或控制台等方式登录到华三交换…...

精通Nginx(14)-配置HTTPS

HTTPS是在 HTTP 协议的基础上使用 TLS/SSL 加密,其主要目标是提高数据传输的安全性。从HTTP2.0开始,HTTPS已经是网站的标准协议,很多开放平台非HTTPS不能访问。Nginx为HTTPS提供了强大的支持,且对应用服务器是完全透明的。 目录 SSL/TLS基础 发展历史 TLS握手过程 加密…...

封装一个简单的table组件

子组件 <template> <el-table :data"tableData" :headers"tableHeaders" style"width: 100%"> <el-table-column v-for"header in tableHeaders" :key"header.prop" :label"header.label" :pro…...

Avalonia UI框架介绍

Avalonia UI是一个跨平台的UI框架&#xff0c;它允许开发者使用XAML和C#语言创建可在多个平台上运行的应用程序&#xff0c;包括Windows、Linux、macOS等。Avalonia UI与WPF非常相似&#xff0c;但是它是开源的&#xff0c;并且更加灵活。 下面是一个简单的Avalonia UI应用程序…...

【入门篇】1.3 redis客户端之 jedis 高级使用示例

文章目录 0.前言1. 发布和订阅消息2. 事务操作3. 管道操作4. jedis 支持哨兵模式5. jedis 支持集群模式5. 参考链接 0.前言 Jedis是Redis的Java客户端&#xff0c;它支持所有的Redis原生命令&#xff0c;使用方便&#xff0c;且可以与Java项目无缝集成。 该库的最新版本支持Re…...

使用CXF调用WSDL(二)

简介 本篇文章主要解决了上篇文章中遗留的对象嵌套问题&#xff0c;要想全面解析无限极的对象嵌套需要使用递归去解决 上文链接&#xff1a; 使用CXF调用WSDL&#xff08;一&#xff09; 上文回顾 上文使用了单方法“ call() ”解决了List和基本类型&#xff08;含String&…...

list.toArray

直接去看原文 原文链接:List的toArray()方法_list.toarray-CSDN博客 -------------------------------------------------------------------------------------------------------------------------------- toArray()介绍 toArray()方法是List接口中提供的方法&#xff…...

2013年11月10日 Go生态洞察:Go语言四周年回顾

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…...

Ubuntu上使用SSH连接到CentOS系统

确保CentOS系统上的SSH服务器已安装并正在运行&#xff1a; 在CentOS上&#xff0c;默认情况下&#xff0c;SSH服务器&#xff08;sshd&#xff09;应该已安装并正在运行。如果不确定&#xff0c;可以通过以下方式检查&#xff1a; sudo systemctl status sshd如果未安装&…...

【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记

A Survey of Knowledge-Enhanced Pre-trained Language Models Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, Senior Member, IEEE and Juanzi Li 2023年8月的一篇关于知识增强预训练模型的文献综述 论文思维导图 思维导图网页上看不清的话&#xff0c;可以存…...

shell脚本之函数

快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解&#xff08;如有不正确的地方欢迎各位小伙伴在评论区提意见&#xff0c;博主会及时修改&#xff09; 函数 一&#xff0c;什么是函数 函数是一段功能代码,用来解决shell编程中冗余代码[重复且不连续出现的功能…...

订水商城实战教程10-宫格导航

上一篇我们介绍了跑马灯的功能&#xff0c;这一篇就进入到我们的主体部分开发。在订水商城业务中可以按照分类查询商品信息&#xff0c;这就涉及到数据源的拆分。 我们在数据源的设计中区分为主子表&#xff0c;主表呢存储唯一的记录&#xff0c;子表的记录可以重复&#xff0…...

【C++11】lambda表达式 | 包装器

文章目录 一、 lambda表达式lambda表达式的引入lambda表达式的语法lambda表达式与函数对象lambda表达式的捕捉列表 二、包装器function包装器bind包装器 一、 lambda表达式 lambda表达式的引入 在C98中&#xff0c;为了替代函数指针&#xff0c;C设计出了仿函数&#xff0c;也…...

网络安全准入技术之MAC VLAN

网络准入控制作为主要保障企业网络基础设施的安全的措施&#xff0c;特别是对于中大型企业来说&#xff0c;终端类型多样数量激增、终端管理任务重难度大、成本高。 在这样的一个大背景下&#xff0c;拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…...

MyBatis 操作数据库

文章目录 1. 什么是MyBatis&#xff1f;2. 入门MyBatis2.1 准备工作2.2.1 创建springboot项目2.2.2 数据准备 2.2 配置数据库连接2.3 写持久层代码2.4 单元测试2.4.1 web测试2.4.2 自动测试 1. 什么是MyBatis&#xff1f; MyBatis是一种持久层框架&#xff0c;用于简化JDBC的开…...

设计模式 -- 建造者模式(Builder Pattern)

这个模式以前也义Android-kotlin的场景下讲过 Android 用建造者模式模式写一个Dialog-CSDN博客 不过用的是 变种的建造者模式 建造者模式&#xff1a; 属于创建型模式 提供了一种创建对象的最佳方式&#xff0c; 使用多个简单的对象一步一步构建成一个复杂的对象 。 介绍 意图…...

如何下载 Apache + PHP + Mysql 集成安装环境并结合内网穿透工具实现公网访问内网服务

&#x1f308;个人主页&#xff1a;聆风吟 &#x1f525;系列专栏&#xff1a;网络奇遇记、Cpolar杂谈 &#x1f516;少年有梦不应止于心动&#xff0c;更要付诸行动。 文章目录 &#x1f4cb;前言一. WampServer下载安装二. WampServer启动三. 安装cpolar内网穿透3.1 注册账号…...

一招告别百度广告烦恼,同时效率提高100倍的几个常用搜索技巧!

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推荐--…...

文件上传 [ACTF2020 新生赛]Upload1

打开题目&#xff0c;发现是一道文件上传题目 随便上传个一句话木马上去 发现网站前端有白名单限制&#xff0c;只能上传含有jpg&#xff0c;png&#xff0c;gif的后缀文件 那我们便传个2.jpg的一句话木马上去&#xff0c;bp抓包 我们改成php文件后缀试试&#xff0c;发现重发…...

振南技术干货集:比萨斜塔要倒了,倾斜传感器快来!(1)

注解目录 1、倾斜传感器的那些基础干货 1.1 典型应用场景 &#xff08;危楼、边坡、古建筑都是对倾斜敏感的。&#xff09; 1.2 倾斜传感器的原理 1.2.1 滚珠式倾斜开关 1.2.2 加速度式倾斜传感器 1)直接输出倾角 2)加速度计算倾角 3)倾角精度的提高 &#xff08;如果…...

手把手教你搭建属于自己的快递小程序

在数字化时代&#xff0c;小程序已经成为各行各业连接用户、提供服务、创造价值的重要工具。其中&#xff0c;快递寄件小程序因其实用性和广泛的需求&#xff0c;成为很多企业和开发者关注的焦点。本文将详细介绍如何快速创建快递寄件小程序&#xff0c;以及如何利用它实现盈利…...

C# Onnx LSTR 基于Transformer的端到端实时车道线检测

目录 效果 模型信息 项目 代码 下载 效果 端到端实时车道线检测 模型信息 lstr_360x640.onnx Inputs ------------------------- name&#xff1a;input_rgb tensor&#xff1a;Float[1, 3, 360, 640] name&#xff1a;input_mask tensor&#xff1a;Float[1, 1, 360, …...

Java相关编程思想

少用继承多用“组合”——在现有类的基础上组织一个新类。 2.继承要用“is”来检验&#xff0c;如果继承者is被继承者&#xff0c;说明这是一个比较好的继承。 3.向上造型&#xff0c;把实现方法留给继承者去实现。&#xff08;动态绑定&#xff09; 4.把接口理解为抽象类的进一…...

Hadoop-HDFS架构与设计

HDFS架构与设计 一、背景和起源二、HDFS概述1.设计原则1.1 硬件错误1.2 流水访问1.3 海量数据1.4 简单一致性模型1.5 移动计算而不是移动数据1.6 平台兼容性 2.HDFS适用场景3.HDFS不适用场景 三、HDFS架构图1.架构图2.Namenode3.Datanode 四、HDFS数据存储1.数据块存储2.副本机…...

OpenAI暂停新的ChatGPT Plus注册 | OpenAI 的 GPT Builder 创建您的 GPTs

OpenAI DevDay 才过去仅仅一周时间&#xff0c;伴随着开发者大会上发布的一系列重磅升级和新特性&#xff0c;无疑这样的进化速度让广大网友炸锅了&#xff0c;其火热程度可见一斑。 就在四个小时前&#xff0c;OpenAI的CEO Sam Altma突然宣布&#xff0c;ChatGPT Plus账号暂停…...

Git目录不对,即当前文件夹不对应git仓库

报错信息是&#xff1a; fatal: not a git repository (or any of the parent directories): .git 如&#xff1a; 是当前文件夹不对应git仓库&#xff0c;一般在git clone之后&#xff0c;需要进入下一级文件夹才对应仓库。 在文件夹看&#xff0c;本层中没有.git文件夹&…...