当前位置: 首页 > news >正文

音频数据集

1 多语言

Mozilla Common Voice

下载地址:https://voice.mozilla.org/data
时长:1965小时(目前为止)
最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。
Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。
Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它是一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3倍)。

翻译和口语音频的大型数据库Tatoeba

链接下载地址:https://tatoeba.org/eng/downloads
项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。

CMU Wilderness Multilingual Speech Dataset

2 英语

VOiCES Dataset

下载地址:https://voices18.github.io/downloads/
文献:https://arxiv.org/abs/1804.05053
发布时间:2018年
时长:总共15小时(3903个音频文件)
参与人数:300人
这个数据集是在复杂的环境中采集的。在不同大小的真实房间中录音,捕捉每个房间的不同背景声音和混响。其中也包含了各种类型的干扰噪声(电视,音乐,或潺潺声)。在房间内精心布置的12个麦克风在远处录制音频,每个麦克风产生120小时的音频。为了模仿谈话中的人类行为,前景说话人使用电动装置,在记录期间旋转一系列角度。
300个不同的说话人从LibriSpeech的“干净”的数据子集被选择作为源音频,确保女男性别比例均衡。

本语料库的目的是促进声学研究,包括但不限于:
说话人识别,语音识别,说话人检测。
事件和背景分类,语音/非语音。
源分离和定位,降噪。
其中音频包含:
男女声阅读的英语。
模拟的头部运动:使用电动旋转平台上的说话人来模拟前景旋转。
杂散噪声包含大量的电视、音乐、噪音。
包括大、中、小多个房间的各种混响。

语料库包含源音频、重传音频、正字法转录和说话人标签,有转录和模拟记录的真实世界的噪音。该语料库的最终目标是通过提供对复杂声学数据的访问来推进声学研究。语料库将以开源的形式发布,免费供商业、学术和政府使用。

LibriSpeech

链接(内含镜像)地址:http://www.openslr.org/12/
发布时间:2015年
大小:60GB
时长:1000小时
采样:16Hz
LibriSpeech该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。
推荐应用方向:自然语音理解和分析挖掘

2000 HUB5 English:

链接地址:https://catalog.ldc.upenn.edu/LDC2002T43
发布时间:2002年
该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集。HUB5评估系列集中在电话上的会话语音,将会话语音转录成文本的特定任务。其目标是探索会话语音识别的新领域,开发融合这些思想的先进技术,并测量新技术的性能。
此版本包含评估中用到的40个源语音数据文件的.txt格式的脚本,即20个未发布的电话交谈,是招募的志愿者根据机器人操作员的每日主题进行对话,和20个来自CALLHOME美国英语演讲中的母语交流者之间的对话。
推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别

VoxForge:

下载地址:http://www.voxforge.org/home/downloads
带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的场景。VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音(在Linux/Unix,Windows以及Mac平台上)
以GPL协议开放所有提交的录音文件,并且制作声学模型。以供开源语音识别引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分发限制)。
推荐应用方向:语音识别

人类语音的大规模视听数据集 (VoxCeleb)

VoxCeleb是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。
该数据集有2个子集:VoxCeleb1和VoxCeleb2

VoxCeleb1
VoxCeleb1包含超过10万个针对1,251个名人的话语,这些话语是从上传到YouTube的视频短片中提取的。
发音人数:1251
视频数量:21245
音频数量:145265
下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

VoxCeleb2
说话人深度识别数据集 VoxCeleb2包含超过100万个6,112个名人的话语,从上传到YouTube的视频中提取,VoxCeleb2已经与VoxCeleb1或SITW数据集没有重叠的说话人身份。
发音人数量:训练集:5994,测试集:118
视频数量:训练集:145569,测试集:4911
音频数量:训练集:1092009,测试集:36237
内容时长:2000小时以上
发布时间:2018年
下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

音频全部采自YouTube,是从网上视频切除出对应的音轨,再根据说话人进行切分;
属于完全真实的英文语音;
数据集是文本无关的;
说话人范围广泛,具有多样的种族,口音,职业和年龄;
每句平均时长8.2s,最大时长145s,最短时长4s,短语音较多;
每人平均持有句子116句,最大持有250句,最小持有45句;
数据集男女性别较均衡,男性有690人(55%),女性有561人;
采样率16kHz,16bit,单声道,PCM-WAV音频格式;
语音带有一定真实噪声,非人造白噪声,噪声出现时间点无规律,人声有大有小;
噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音;
视频场景包括:明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说;
音频无静音段,但不是VAD的效果,而是截取了一个人的完整无静音音频片段;
数据集自身以划分了开发集Dev和测试集Test,可直接用于Speaker Verification(V)
参考:https://www.zhihu.com/question/265820133/answer/356203615

TIMIT:英语语音识别数据集

发布时间:1993年
采样:16kHz 16bit
参与人数:630人
下载地址:https://catalog.ldc.upenn.edu/LDC93S1
TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和斯坦福研究院SRI International合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割、标记。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。
在给定的10个句子,包括:
2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450
个音素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的
Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%) ,TIMIT的原始录音是基于61个音素的
由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。
推荐应用方向:语音识别
70%的说话人是男性;大多数说话者是成年白人。
TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面:
数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;
数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。
目录组织形式如下:
/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>
语料库:timit
用法:train | test
方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性别:m | f
说话者ID:<说话者缩写><0-9任意数字>
句子ID:<文本类型><句子编号>,其中,文本类型:sa | si | sx
文件类型:wav | txt | wrd | phn
举例:
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn

https://blog.csdn.net/qfire/article/details/78711673

CHIME:

链接地址:http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/
包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个speaker在 4 个嘈杂位置的近 9000 段录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。该数据集包含了训练集、验证集、测试集三部分,每份里面包括了多个speaker在不同噪音环境下的数据。
推荐应用方向:语音识别
双麦克风录制的立体WAV文件包括左右声道,而阵列麦克风的录音被分解为每个单声通道的WAV文件。
转录以JSON格式提供。

TED-LIUM:

采样:16Hz
时长:118小时
TED-LIUM 语料库由音频讲座及其转录本组成,可在 TED 网站上查阅。
下载地址:http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz

TED-LIUM 2
通道:1
采样:16Hz 16bit
比特率:256k
TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库以及这些录音的文字转录。
下载:http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz

TED-LIUM 3
通道:1
采样:16Hz 16bit
比特率:256k
新的TED-LIUM版本是由Ubiqus公司与LIUM(法国勒芒大学)合作制作的。包含2351条录音与对齐脚本,452小时的音频,159848条发音词典,从 WMT12 公开可用的 Corpora 中选择语言建模的单语言数据:这些文件来自 TED-LIUM 2 版本,但已修改以获得与英语更相关的标记化
下载:http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz
国内镜像:http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz

Google AudioSet

AudioSet是谷歌17年开放的大规模的音频数据集。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(包括 527 个标签,片段来自YouTube视频)。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。此项研究论文已发表于IEEE ICASSP 2017 会议上。
AudioSet提供了两种格式:
csv文件,包括音频所在的YouTube视频的ID,开始时间,结束时间 以及标签(可能是多标签)
128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的,VGGish下载地址为https://github.com/tensorflow/models/tree/master/research/audioset 可以使用该模型提取我们自己的数据。VGGish也是用来提取YouTube-8M的。这些数据被存储为.tfrecord格式。
链接下载地址:https://github.com/audioset/ontology
参考:
https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc
https://blog.csdn.net/qq_39437746/article/details/80793476(含国内镜像链接)
https://cloud.tencent.com/developer/article/1451556

CCPE数据集

发布时间:2019年
CCPE 全称为 Coached Conversational Preference Elicitation,它是我们提出的一种在对话中获得用户偏好的新方法,即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话,我们对人们如何描述电影偏好进行了简要的定量分析;并且向社区发布了 CCPE-M 数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。具体而言,它由 502 个对话框组成的数据集,在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集,其中一个工作人员扮演「助手」的角色,而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见,并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。
在面向电影的 CCPE 数据集中,冒充用户的个人对着麦克风讲话,并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应,然后通过文本到语音向用户播放。这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。在对这个数据集的观察中,我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现,偏好也称为选项的特征,并不总是与智能助理的方式相匹配,或者与推荐网站的方式相匹配。换言之,你最喜爱的电影网站或服务上的过滤器,可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。
有关 CCPE 数据集的详细信息,参阅具体研究论文https://ai.google/research/pubs/pub48414,该论文将在 2019 年话语与对话特别兴趣小组(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年会上发布。
2)链接下载相关:https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json

Free ST American English Corpus

参与人数:10人
该数据集源自(www.Surfay.ai)的一个自由的美式英语语料库,包含十个发言者的话语,每个说话者有350个左右的词句。该语料库是在室内环境下用手机录制的,每个词句都由专人仔细抄写与核对,保证转录的准确性。
链接下载地址:http://www.openslr.org/45/
国内镜像:http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

CSTR VCTK

参与人数:109人
这个数据集包括109个以英语为母语、带有不同口音的英语使用者说出的语音数据。每位发言者宣读约400句词句,其中大部分来自报纸,加上rainbow passage和旨在识别说话者口音的引语段落。报纸文章取自《先驱报》(格拉斯哥),并经《先驱报》和《时代》集团许可。每位演讲者阅读一组不同的报纸句子,其中每组句子都是使用贪婪算法选择的,该算法旨在最大化上下文和语音覆盖。rainbow passage和引语段落对所有发言者都是一样的。
彩虹通道可以在英语档案国际方言中找到:http://web.ku.edu/~idea/readings/rainbow.htm
引出段落与用于语音重音存档 http://accent.gmu.edu的段落相同。语音重音存档的详细信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf
See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
下载:https://datashare.is.ed.ac.uk/handle/10283/2651

LibriTTS corpus

采样:24Hz
时长:585小时
LibriTTS 是一种多语言英语语种,以 24kHz 采样率阅读英语语音约 585 小时,由 Heiga Zen 在 Google 语音和 Google 大脑团队成员的协助下编写。LibriTTS 语料库专为 TTS 研究而设计。它派生自LibriSpeech语料库的原始材料(来自LibriVox的MP3音频文件和古腾堡项目的文本文件)。
以下是 LibriSpeech 语料库的主要区别:
音频文件的采样速率为 24kHz。
演讲在句子中断时被分割。
包含原始文本和规范化文本。
可以提取上下文信息(例如相邻的句子)。
排除了具有显著背景噪声的透口。
链接(镜像)http://www.openslr.org/60/

The AMI Corpus
这是最初托管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 声学数据的镜像。AMI 会议会议记录包含 100 小时的会议录音。录像使用与公共时间线同步的信号范围。其中包括近距离麦克风和远场麦克风、独立和房间视图摄像机,以及从幻灯机和电子白板输出。在会议期间,与会者还可以使用不同步的笔来记录所写内容。会议以英语录制,使用三个不同的房间,具有不同的声学属性,并且包括大多数非母语人士。
下载:http://www.openslr.org/16/

中文

Free ST Chinese Mandarin Corpus

参与者:855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度
语料库包含: 1音频文件; 2转录; 3元数据;
链接下载:(8.2G)http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

Primewords Chinese Corpus Set 1

参与人数:296人
时长:178小时
这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。
链接下载:(9.0G)http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

THCHS30

时长:40+小时
THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。
链接国内镜像:https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

ST-CMDS

时长:100余小时
参与人数:855人
ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
国内镜像:https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

MAGICDATA Mandarin Chinese Read Speech Corpus

时长:755小时
参与人数:1080人
应用:语音识别,机器翻译,说话人识别和其他语音相关领域
Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。如语音数据编码和说话者信息的细节信息被保存在metadata文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。
下载地址见参考:https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像:http://www.openslr.org/68/

AISHELL数据集

AISHELL开源版1

时长:178小时
参与人数:400人
采样:44.1kHz & 16kHz 16bit
AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。
链接下载地址:http://www.aishelltech.com/kysjcp

AISHELL-2 开源中文语音数据库

时长:1000小时
参与人数:1991人
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)
链接下载地址:http://www.aishelltech.com/aishell_2

AISHELL-3 语音合成数据库

时长:85小时
参与人数:218人
采样率:44.1kHz,16bit
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
详见:AISHELL-3高保真中文语音数据集

MobvoiHotwords

MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。
国内镜像|国外镜像

其他

GigaSpeech:东南亚语种
kespeech:开源方言数据集
完成融合aidatatang、aidatashell、commonvoice、wenetspeech800w中文数据集的fmt3

Sound Event Classification:FSD50K、DCASE2017 Task4、UrbanSound8K
Vocal Sound Classification:vocalsound(可做年龄、性别、健康状态等识别任务)
Acoustic Scene Classification:TUT 2017、CochlScene
Emotion Recognition:CREMA-D、RAVDESS

相关文章:

音频数据集

1 多语言 Mozilla Common Voice 下载地址&#xff1a;https://voice.mozilla.org/data 时长&#xff1a;1965小时&#xff08;目前为止&#xff09; 最早2017年发布&#xff0c;持续更新&#xff0c;该基金会表示&#xff0c;通过 Common Voice 网站和移动应用&#xff0c;他们…...

Java | Leetcode Java题解之第268题丢失的数字

题目&#xff1a; 题解&#xff1a; class Solution {public int missingNumber(int[] nums) {int n nums.length;int total n * (n 1) / 2;int arrSum 0;for (int i 0; i < n; i) {arrSum nums[i];}return total - arrSum;} }...

指针!!C语言(第二篇)

目录 一. 数组名的理解 二. 一维数组传参的本质 三. 冒泡排序法 四. 二级指针与指针数组 五. 字符指针变量与数组指针 一. 数组名的理解 在我们对指针有了初步的理解之外&#xff0c;今天我们来掌握一些新的知识就是数组与指针&#xff0c;第一个对数组名的了解&#xff…...

AIGC-ToonCrafter: Generative Cartoon Interpolation

论文:https://arxiv.org/pdf/2405.17933 代码:https://doubiiu.github.io/projects/ToonCrafter 给定首尾帧&#xff0c;生成逼真生动的动画 MOTIVATION Traditional methods which implicitly assume linear motion and the absence of complicated phenomena like disoccl…...

牛奶供应(三)

一个字贪&#xff0c;第一天&#xff0c;只能选择制作方式&#xff0c;后面的每一天&#xff0c;在<今天制作>与<前期存储>之间取更优解 例如样例&#xff1a;100 5&#xff0c;200 5&#xff0c;90 20&#xff0c;存储成本为10 第1天&#xff1a; 一定是制作&…...

首批通过 | 百度通过中国信通院H5端人脸识别安全能力评估工作

2024年5月&#xff0c;中国信息通信研究院人工智能研究所依托中国人工智能产业发展联盟安全治理委员会&#xff08;AIIA&#xff09;、“可信人脸应用守护计划”及多家企业代表共同开展《H5端人脸识别线上身份认证安全能力要求及评估方法》的编制工作&#xff0c;并基于该方法开…...

JVM---对象是否存活及被引用的状态

1.如何判断对象是否存活 1.1 引用计数算法 概念&#xff1a;在对象头部增加一个引用计数器,每当有一个地方引用它时&#xff0c;计数器值就加一&#xff1b;当引用失效时&#xff0c;计数器值就减一&#xff1b;任何时刻计数器为零的对象就是不可能再被使用的。 优点&#xff1…...

科研绘图系列:R语言分割小提琴图(Split-violin)

介绍 分割小提琴图(Split-violin plot)是一种数据可视化工具,它结合了小提琴图(violin plot)和箱线图(box plot)的特点。小提琴图是一种展示数据分布的图形,它通过在箱线图的两侧添加曲线来表示数据的密度分布,曲线的宽度表示数据点的密度。而分割小提琴图则是将小提…...

WEB前端09-前端服务器搭建(Node.js/nvm/npm)

前端服务器的搭建 在本文中&#xff0c;我们将介绍如何安装和配置 nvm&#xff08;Node Version Manager&#xff09;以方便切换不同版本的 Node.js&#xff0c;以及如何设置 npm&#xff08;Node Package Manager&#xff09;使用国内镜像&#xff0c;并搭建一个简单的前端服…...

ASP.NET Core在启动过程中使用数据库实例的几种方式

ASP.NET Core项目启动过程中若要调用SqlSugarClient实例操作数据库数据&#xff08;假设操作函数如下&#xff09;&#xff0c;特此记录以下几种方式&#xff1a; public class PublicDataBuffer {public static List<EnvironmentRecord> DataBuffer new List<Envir…...

AndroidStudio 编辑xml布局文件卡死问题解决

之前项目编写的都是正常&#xff0c;升级AndroidStudio后编辑布局文件就卡死&#xff0c;还以为是AndroidStudio文件。 其实不然&#xff0c;我给整个项目增加了版权声明。所以全部跟新后&#xff0c;布局文件也增加了版权声明。估计AndroidStudio在 解析布局文件时候因为有版…...

使用 PVE 自签 CA 证书签发新证书

前言 PVE 安装时会自动创建一个有效期 10 年的 CA 证书, 我们可以利用这个 CA 证书给虚拟机中的 Web 应用签发新的 TLS 证书用于提供 HTTPS 服务. 下面以 PVE 虚拟机中通过 Docker 跑的一个 雷池 应用为例进行演示. PVE 证书位置 官方文档: https://pve.proxmox.com/wiki/Pr…...

ubuntu 22.04安装Eigen

1 安装 git clone https://gitlab.com/libeigen/eigen.gitcd eigen mkdir build cd build cmake ..sudo make install... -- Installing: /usr/local/include/eigen3/unsupported/Eigen/CXX11/src/TensorSymmetry -- Installing: /usr/local/include/eigen3/unsupported/Eige…...

vue使用audio 音频实现播放与关闭(可用于收到消息给提示音效)

这次项目中因为对接了即时通讯 IM&#xff0c;有个需求就是收到消息需要有个提示音效&#xff0c;所以这里就想到了用HTML5 提供的Audio 标签&#xff0c;用起来也是很方便&#xff0c;首先让产品给你个提示音效&#xff0c;然后你放在项目中&#xff0c;使用Audio 标签&#x…...

STM32 产生Hard Fault 调试方法

STM32 产生hard-fault 调试方法 需求 当STM32 产生Hard Fault的时候我们希望可以打印出一些重要的寄存器信息&#xff0c;然后定位代码出错的地方。 参考 https://github.com/ferenc-nemeth/arm-hard-fault-handler 原理 STM32代码运行的时候一般在是main函数while(1)中循…...

java-selenium 截取界面验证码图片并对图片文本进行识别

参考链接 1、需要下载Tesseract工具并配置环境变量&#xff0c;步骤如下 Tesseract-OCR 下载安装和使用_tesseract-ocr下载-CSDN博客 2、需要在IDEA中导入tess4j 包&#xff1b;在pom.xml文件中输入如下内容 <!--导入Tesseract 用于识别验证码--><dependency>&l…...

【Linux】进程信号 --- 信号产生

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前正在学习c和算法 ✈️专栏&#xff1a;Linux &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章有啥瑕疵&#xff0c;希望大佬指点一二 如果文章对…...

Docker 容器中的 Docker Compose 简介

Docker Compose是什么 Docker Compose是一个用于定义和运行多个Docker容器的工具。它是Docker官方提供的开源项目&#xff0c;用于实现对Docker容器集群的快速编排。通过Compose&#xff0c;开发者可以使用YAML文件&#xff08;通常是docker-compose.yml文件&#xff09;来配置…...

手机日历如何与Outlook同步

有很多人和我一样遇到手机日历与Outlook同步问题&#xff0c;如新版outlook与小米日历的同步问题 - Microsoft Community&#xff0c;outlook账号无法在手机端自带的电子邮件App以exchange模式登录 - Microsoft Community&#xff0c;在安卓手机端无法电子邮件App以exchange模式…...

python基础语法 007 文件操作-1读取写入

1 文件操作 1.1 什么时候用文件操作&#xff1f; 打开文档写东西看东西拿文档做统计 在python 文档操作作用 存储数据读取数据 打开文件有什么用&#xff1f; 读取数据&#xff0c;写入数据不管什么数据都可以用open打开&#xff0c;如可复制一张图片 1.2 open() 读取,…...

C语言·函数(超详细系列·全面总结)

前言&#xff1a;Hello大家好&#x1f618;&#xff0c;我是心跳sy&#xff0c;为了更好地形成一个学习c语言的体系&#xff0c;最近将会更新关于c语言语法基础的知识&#xff0c;今天更新一下函数的知识点&#xff0c;我们一起来看看吧&#xff01; 目录 一、函数是什么 &a…...

Windows及Linux系统加固

君衍. 一、Windows加固1、配置简介2、账户配置3、本地配置4、安全设置 二、Linux加固1、配置简介2、网络配置3、日志和审计配置4、访问认证和授权配置5、系统运维配置 一、Windows加固 1、配置简介 通常在Windows安全配置中有两类对象 一类是Windows Server&#xff0c;如win …...

Postman安装使用教程(详解)

目录 一、Postman是什么 二、安装系统要求 三、下载Postman 四、注册和登录Postman 五、创建工作空间 六、创建请求 一、Postman是什么 在安装之前&#xff0c;让我们先来简单了解一下Postman。Postman是一个流行的API开发工具&#xff0c;它提供了友好的用户界面用于发送…...

【嵌入式开发之标准I/O】文件I/O的基本概念,打开、关闭、定位函数及实例

文件I/O和标准I/O 什么是文件I/O?什么是标准I/O? 文件I/O&#xff1a;文件I/O又称系统IO&#xff0c;系统调用&#xff0c;称之为不带缓存的IO&#xff08;unbuffered I/O)。是操作系统提供的API接口函数。不带缓存指的是每个read&#xff0c;write都调用内核中的一个系统调…...

C++文件操作-文本文件-读文件

第一种 #include<iostream>//1、包含头文件 fstream #include<fstream> using namespace std;void test01() {//2、创建流对象ifstream ifs;//3、打开文件 并且判断是否打开成功ifs.open("test.txt", ios::in);if (!ifs.is_open()){cout << "…...

二叉树精选面试题

&#x1f48e; 欢迎大家互三&#xff1a;2的n次方_ 1. 相同的树 100. 相同的树 同时遍历两棵树 判断结构相同&#xff1a;也就是在遍历的过程中&#xff0c;如果有一个节点为null&#xff0c;另一棵树的节点不为null&#xff0c;那么结构就不相同 判断值相同&#xff1a;只需…...

如何在 Android 中删除和恢复照片

对于智能手机用户来说&#xff0c;相机几乎已经成为一种条件反射&#xff1a;你看到值得注意的东西&#xff0c;就拍下来&#xff0c;然后永远保留这段记忆。但如果那张照片不值得永远保留怎么办&#xff1f;众所周知&#xff0c;纸质快照拿在手里很难舍弃&#xff0c;而 Andro…...

HarmonyOS Next原生应用开发-从TS到ArkTS的适配规则(六)

一、仅支持一个静态块 规则&#xff1a;arkts-no-multiple-static-blocks 级别&#xff1a;错误 ArkTS不允许类中有多个静态块&#xff0c;如果存在多个静态块语句&#xff0c;请合并到一个静态块中。 TypeScript class C {static s: stringstatic {C.s aa}static {C.s C.s …...

功能测试与APPSCAN自动化测试结合的提高效率测试策略

背景 手工探索性测试&#xff08;Manual Exploratory Testing&#xff0c;简称MET&#xff09;是一种软件测试方法&#xff0c;它依赖于测试人员的直觉、经验和即兴发挥来探索应用程序或系统。与传统的脚本化测试相比&#xff0c;手工探索性测试不遵循固定的测试脚本&#xff0…...

AVL树的理解和实现[C++]

文章目录 AVL树AVL树的规则或原理 AVL树的实现1.节点的定义2.功能和接口等的实现默认构造函数&#xff0c;析构函数拷贝构造函数插入搜索打印函数检查是否为平衡树&#xff0c;检查平衡因子旋转 AVL树 AVL树&#xff0c;全称Adelson-Velsky和Landis树&#xff0c;是一种自平衡…...

网站开发标书/店面怎么做位置定位

2019独角兽企业重金招聘Python工程师标准>>> 对象属性转换为map 1、空值保留(强制转换 fastJson) JSONObject jonsObject (JSONObject)JSONObject.toJSON("类对象"); 2、空值过滤(非强制转换 fastJson) JSONObject jsonObject JSON.parseObject(JSON.…...

怎么用电脑做网站主机/互联网营销师培训课程免费

装饰器应用练习 一、实现一个cache装饰器&#xff0c;实现可过期被清除的功能 简化设计&#xff0c;函数的形参定义不包含可变位置参数、可变关键词参数和keyword-only参数可以不考虑缓存满了之后的换出问题 1)原始def cache(fn):import inspectlocal_cache {}def wrapper(*ar…...

霍山有没有做建网站的/seo线下培训班

计算机三级《网络技术》操作试题及答案2016参考答案与解析一、综合题1.【解题思路】该题考查的主要内容是给出IP地址和子网掩码&#xff0c;要求解出主机号、网络地址、广播地址、直接广播地址以及地址范围。主机号是将IP地址中网络位置0&#xff0c;主机位不变得到的&#xff…...

企业门户网站布局特征/seo数据监控平台

关键点也称为兴趣点&#xff0c;它是2D图像或是3D点云或者曲面模型上&#xff0c;可以通过定义检测标准来获取的具有稳定性&#xff0c;区别性的点集&#xff0c;从技术上来说&#xff0c;关键点的数量相比于原始点云或图像的数据量减小很多&#xff0c;与局部特征描述子结合在…...

企业官方网站建设如何/鸿科经纬教网店运营推广

本文转载自&#xff1a;Java中会存在内存泄漏吗&#xff0c;请简单描述 会。java导致内存泄露的原因很明确&#xff1a;长生命周期的对象持有短生命周期对象的引用就很可能发生内存泄露&#xff0c;尽管短生命周期对象已经不再需要&#xff0c; 但是因为长生命周期对象持有它…...

用心做的网站/班级优化大师官方免费下载

Collection├List│├LinkedList│├ArrayList│└Vector│ └Stack└SetMap├Hashtable├HashMap└WeakHashMapCollection接口Collection是最基本的集合接口&#xff0c;一个Collection代表一组Object&#xff0c;即Collection的元素(Elements)。Java SDK不提供直接继承自Col…...