当前位置: 首页 > news >正文

【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本,研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题,即未经授权可能滥用个人数据进行模型训练。最近的工作(例如 CUDA)提出了这个问题的解决方案,通过添加类模糊来使数据集变得不可学习,即模型永远不能使用获取的数据集进行学习。然而,这些方法通常会降低数据的质量,使其在实际应用中毫无用处。我们引入了 PosCUDA,一种基于位置的卷积,用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥,因此模型学习位置模糊和标签之间的关系,但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成,而无需任何微调。然而,流行的方法在适应域外设置的新说话人方面遇到了限制,这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制,我们提出了一种创新的否定特征学习范例,该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。此外,为了促进不同说话者属性的学习,我们利用多流 Transformer,它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示,我们采用了注意力池。最后,鉴于以所需语音生成目标文本话语的必要性,我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合,而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力,当赞美一首音乐时,我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复,因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox(一种开源商用神经网络)的能力,以准确复制节奏游戏中常见的两种音乐类型:艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐,但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来,人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而,对于安装在移动人形机器人上的阵列来说,情况不一定如此。如果没有适当考虑阵列运动,可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型,提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号,并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究,证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成,为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法,该方法实现了最大方向性,为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究,结果表明,刚性球形阵列特别适合实重设计,因为它们不会受到栅瓣的影响,而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中,经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源,因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战,并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中,我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练,这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习,并在可用时从精心策划的标签中学习,从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述,而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻,但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛,针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中,我们提出了一种动态跳层方法,该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外,我们对CTC输出分布进行因子分解,并对中间层进行知识蒸馏,以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关文章:

【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野今日CS.Sound 声学论文速览 Fri, 5 Jan 2024 Totally 10 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers PosCUDA: Position based Convolution for Unlearnable Audio Datasets Authors Vignesh Gokul, Shlomo Dubnov深度学习模型需要大量干净的…...

Java中如何使用SQLite数据库

目录 SQLite简介SQLite优势安装 SQLite基本使用Java使用SQLite Springboot使用SQLite1.添加依赖2.配置数据库3.创建实体类 4.创建Repository接口5.创建控制器6.运行应用程序 SQLite简介 SQLite 是一个开源的嵌入式关系数据库,实现了自给自足的、无服务器的、配置无…...

kettle的基本介绍和使用

1、 kettle概述 1.1 什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 以XML形式存储以资源库方式存储…...

数据结构第2章 栈和队列

名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 本篇笔记整理:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 0、思维导图栈和队列1、栈1)特点2&#xff0…...

Axure鲜花商城网站原型图,网上花店订花O2O本地生活电商平台

作品概况 页面数量:共 30 页 兼容软件:仅支持Axure RP 9/10,非程序软件无源代码 应用领域:鲜花网、花店网站、本地生活电商 作品特色 本作品为「鲜花购物商城」网站模板,高保真高交互,属于O2O本地生活电…...

【docker】centos 使用 Nexus Repository 搭建私有仓库

Nexus Repository 是一种流行的软件仓库管理工具,它可以帮助您搭建私有仓库,以便在内部网络或私有云环境中存储、管理和分发各种软件包和组件。 它常被用于搭建Maven的镜像仓库。本文演示如何用Nexus Repository搭建docker 私有仓库。 使用Nexus Repos…...

RabbitMQ(八)消息的序列化

目录 一、为什么需要消息序列化?二、常用的消息序列化方式1)Java原生序列化(默认)2)JSON格式3)Protobuf 格式4)Avro 格式5)MessagePack 格式 三、总结 RabbitMQ 是一个强大的消息中间…...

23款奔驰GLC260L升级原厂540全景影像 安装效果分享

嗨 今天给大家介绍一台奔驰GLC260L升级原厂360全景影像 新款GLC升级原厂360全景影像 也只需要安装前面 左右三个摄像头 后面的那个还是正常用的,不过不一样的是 升级完成之后会有多了个功能 那就是新款透明底盘,星骏汇小许Xjh15863 左右两边只需要更换后…...

【CSS】文字描边的三种实现方式

目录 1. 可行的几种方式1.1. text-shadow 描边代码优缺点 1.2. text-stroke 描边实现优缺点 1.3. svg 描边实现优缺点 总结 1. 可行的几种方式 text-shadow–webkit-text-strokesvg 1.1. text-shadow 描边 MDN text-shadow 代码 <div class"text stroke">…...

【事务】事务传播级别

Spring事务定义了7种传播机制&#xff1a; PROPAGATION_REQUIRED&#xff1a;默认的Spring事物传播级别&#xff0c;若当前存在事务&#xff0c;则加入该事务&#xff0c;若不存在事务&#xff0c;则新建一个事务。 PAOPAGATION_REQUIRE_NEW&#xff1a;若当前没有事务&#x…...

Android WiFi 连接

Android WiFi 连接 1、设置中WiFi显示2、WiFi 连接流程2.1 获取PrimaryClientModeManager2.2 ClientModeImpl状态机ConnectableState2.3 ISupplicantStaNetworkCallback 回调监听 3、 简要时序图4、原生低层驱动5、关键日志 1、设置中WiFi显示 Android WiFi基础概览 packages/a…...

PLC与上位机PN通讯时,如何防止连接失败?

连接西门子PLC时失败&#xff0c;或者连接不上PLC&#xff0c;你可能需要做以下几点设置才可以。 一般来说每个PLC都有自己的IP地址&#xff0c;如果你的地址与PLC的地址冲突也就是地址重复是连接不上PLC的&#xff0c;如果地址没有冲突&#xff0c;但是不是在一个网段上也会导…...

LDD学习笔记 -- Linux错误码

LDD学习笔记 -- Linux错误码 EACCES(Permission Denied) 13EEXIST(File Exits) 17EINVAL(Invalid Argument) 22ENOENT(No Such File or Directory)ENOMEM(Out of Memory)EIO(Input/Output Error) 5ENOSPC(No space Left on Device)ENOTTY(Not a Typewrite)EPIPE(Broken Pipe)EI…...

华为交换机入门(六):VLAN的配置

VLAN&#xff08;Virtual Local Area Network&#xff09;即虚拟局域网&#xff0c;是将一个物理的LAN在逻辑上划分成多个广播域的通信技术。VLAN内的主机间可以直接通信&#xff0c;而VLAN间不能直接互通&#xff0c;从而将广播报文限制在一个VLAN内。 VLAN 主要用来解决如何…...

登录验证

目录 会话技术 Cookie Session JWT JWT生成 JWT校验 会话技术 会话 打开浏览器&#xff0c;访问web服务器的资源&#xff0c;会话建立&#xff0c;直到有一方断开连接&#xff0c;会话结束。在一次会话中可以包含多次请求与响应 会话跟踪 一种维护浏览器的方法 服务器需要…...

利用Podman构建基于Fission env/builder的镜像

镜像准备 构建Dockerfile fission的基础环境包括两种&#xff1a;env 以及 builder。如果仅基于code构建function&#xff08;i.e., 只创建deployachive&#xff09;&#xff0c;仅构建env即可&#xff1b;但如果需要构建sourcearchive&#xff0c;则需要同时创建env和builde…...

php加减乘除函数

目录 第一部分&#xff1a;简单示例 1、加法 2、减法 3、乘法 4、除法 第二部分&#xff1a;官方文档 1、加法 2、减法 3、乘法 4、除法 第一部分&#xff1a;简单示例 1、加法 $result bcadd(1.2, 1.4, 2); echo $result;//2.60 2、减法 $result bcsub(1.6, 1.…...

Go语言学习记录——用正则表达式(regexp包)来校验参数

前言 最近坐毕设ing&#xff0c;简单的一个管理系统。 其中对于用户注册、登录功能&#xff0c;需要进行一些参数校验。 因为之前使用过&#xff0c;因此这里计划使用正则表达式进行校验。但是之前的使用也仅限于使用&#xff0c;因此这次专门进行一次学习&#xff0c;并做此记…...

公司办公电脑文件防泄密系统

电脑文件防泄密系统是一种用于保护企业机密文件的软件系统&#xff0c;它采用一系列的安全技术手段&#xff0c;如数据加密、访问控制、审计跟踪等&#xff0c;来确保企业机密文件不被非法获取、窃取或泄漏。这种系统通常适用于企业、政府机构等需要对重要文件进行保密的机构。…...

手把手带你死磕ORBSLAM3源代码(三十四)Tracking.cc MonocularInitialization编辑

目录 一.前言 二.代码 2.1完整代码 2.2 单目视觉跟踪初始化 一.前言 这段代码是一个名为MonocularInitialization的函数,它属于Tracking类。从函数名称和代码内容来看,这个函数主要用于单目视觉跟踪的初始化过程。以下是代码的详细解读: 首先,函数检查一个名为m...

STL标准库与泛型编程(侯捷)笔记3

STL标准库与泛型编程&#xff08;侯捷&#xff09; 本文是学习笔记&#xff0c;仅供个人学习使用。如有侵权&#xff0c;请联系删除。 参考链接 Youbute: 侯捷-STL标准库与泛型编程 B站: 侯捷 - STL Github:STL源码剖析中源码 https://github.com/SilverMaple/STLSourceCo…...

Iceberg: 列式读取Parquet数据

通过Spark读取Parquet文件的基本流程 SQL > Spark解析SQL生成逻辑计划树 LogicalPlan > Spark创建扫描表/读取数据的逻辑计划结点 DataSourceV2ScanRelation > Spark优化逻辑计划树&#xff0c;生成物理计划树 SparkPlan > Spark根据不同的属性&#xff0c;将逻辑…...

Ansible、Saltstack、Puppet自动化运维工具介绍

本文主要是分享介绍三款主流批量操控工具Ansible、Saltstack、Puppet主要对比区别&#xff0c;以及Ansible和saltstack的基础安装和使用示例&#xff0c;如果觉得本文对你有帮助&#xff0c;欢迎点赞、收藏、评论&#xff01; There are many things that can not be broken&am…...

python线程池提交任务

1. 线程池参数设置 CPU数量&#xff1a;N线程池的核心线程数量 IO密集型的话&#xff0c;一般设置为 2 * N 1&#xff1b; CPU密集型的话&#xff0c;一般设置为 N 1 或者 使用进程池。线程池的最大任务队列长度 &#xff08;线程池的核心线程数 / 单个任务的执行时间&#…...

跨境电商企业客户服务优化指南:关键步骤与实用建议

随着全球经济一体化的加强&#xff0c;跨境电子商务产业在过去几年蓬勃发展。但是&#xff0c;为应对激烈竞争&#xff0c;提供全方面的客户服务成为了跨境电子商务卖家在市场中获得优势的关键因素之一。本文将介绍跨境电商企业优化客户服务有哪些步骤&#xff1f;以助力企业提…...

Visual Studio Code 常用快捷键

Visual Studio Code 常用快捷键 文章目录 Visual Studio Code 常用快捷键1. 主命令框2. 常用快捷键2.1 编辑器与窗口管理2.2 代码编辑格式调整光标相关重构代码查找替换显示相关其他 1. 主命令框 F1 或 CtrlShiftP : 打开命令面板。在打开的输入框内&#xff0c;可以输入任何命…...

ubuntu创建pytorch-gpu的docker环境

文章目录 安装docker创建镜像创建容器 合作推广&#xff0c;分享一个人工智能学习网站。计划系统性学习的同学可以了解下&#xff0c;点击助力博主脱贫( •̀ ω •́ )✧ 使用docker的好处就是可以将你的环境和别人的分开&#xff0c;特别是共用的情况下。本文介绍了ubuntu环境…...

数据库原理与应用期末复习试卷2

数据库原理技术与应用 一.单项选择题 设有属性A&#xff0c;B&#xff0c;C&#xff0c;D&#xff0c;以下表示中不是关系的是( C) ​ A、R(A) B、R(A, B, C, D) C、R&#xff08;AxBxCxD&#xff09; D、R(A&#xff0c;B) 在SQL语言中的视图VIEW是数据库的(A&#xff09;…...

操作系统丨单元测试

文章目录 单元测试选择题填空题单元测试 选择题 【单选题】可以实现虚拟存储器的方案是(D)。 A. 固定分区方式 B. 可变分区方式 C. 纯分页方式 D. 请求页式 【单选题】文件系统中文件存储空间的分配是以(D)为基本单位进行的。 A. 字 B. 字节 C. 文件 D. 块 【单选题】哪种…...

tcp/ip协议2实现的插图,数据结构6 (24 - 章)

(142) 142 二四1 TCP传输控制协议 tcpstat统计量与tcp 函数调用链 (143) 143 二四2 TCP传输控制协议 宏定义与常量值–上 (144) 144 二四3 TCP传输控制协议 宏定义与常量值–下 (145) 145 二四4 TCP传输控制协议 结构tcphdr,tcpiphdr (146) 146 二四5 TCP传输控制协议 结构 tcp…...

网站建设与维护网课/简述网站建设的一般流程

挖坑法递归void quicksort(int s[],int left,int right){if(leftint temp,ileft,jright;temps[right];while(i//寻找左边第一个大于基准值的下标while(s[i]<temp&&iif(i//寻找右边第一个小于基准值的下标while(s[j]>temp&&iif(i}s[i]temp;quicksort(s,le…...

价格低的宣传语/怎样做关键词排名优化

vim学习 04——删除 按键含义d0删除光标从当前位置&#xff08;不包含&#xff09;到改行行首的所有字符d^同上d$删除从光标当前位置&#xff08;包含&#xff09;到改行行尾的所有字符db删除从光标当前位置&#xff08;不包含&#xff09;到单词起始处的所有字符de删除从光标当…...

wordpress小工具导入/国外网站如何搭建网页

excel宏病毒&#xff0c;阻止用户打开excel文件&#xff0c;而且会自动感染其他的excel文档。它的明显表现就是&#xff1a;每次打开excel文档的时候都会先自动打开一个book1文档&#xff0c;然后提示你打开的excel文档有宏&#xff0c;所以要解决excel宏病毒&#xff0c;首先要…...

html和css做的网站/人民日报最新头条10条

简介 说明 主要内容是介绍{},即braces花括号在C11中的作用。 作用 默认构造和默认初始化.值列表初始化。{}表示无参默认构造. 默认值和随机 #include <iostream>int main() {int a;int b{};std::cout << a << std::endl;std::cout << b << std:…...

大型 网站的建设 阶段/网站建设公司大型

本文将向您展示如何添加完成按钮、替换返回按钮、在键盘上方添加自定义栏以及如何使用 FocusState 使 TextField 成为第一响应者。 完成按钮 首先,要添加完成按钮,只需添加一个 TextField 并添加以下修饰符: .submitlabel(.done)这应该产生这样的结果: 如果有关于仅在 …...

管理系统下载/天津seo托管

C程序设计试卷C答案.doc学号 姓名 专业判断题(每题1分&#xff0c;共10分)1、一个C源程序必须包含一个main函数。()2、在对一个C程序进行编译的过程中&#xff0c;可以发现注释中的拼写错误。()3、 C程序中的关键字必须小写&#xff0c;其他标识符不区分大小写。()4、 关于if语…...