当前位置：首页 > news >正文

TTS | 语音合成论文概述

news 2026/2/8 9:19:36

综述系列

2021_A Survey on Neural Speech Synthesis

论文：2106.15561.pdf (arxiv.org)

论文从两个方面对神经语音合成领域的发展现状进行了梳理总结（逻辑框架如图1所示）：

核心模块：分别从文本分析（textanalysis）、声学模型（acoustic model）、声码器（vocoder）、完全端到端模型（fully end-to-end model）等方面进行介绍。

进阶主题：分别从快速语音合成（fast TTS）、低资源语音合成（low-resourceTTS）、鲁棒语音合成（robust TTS）、富有表现力的语音合成（expressive TTS）、可适配语音合成（adaptive TTS）等方面进行介绍。

TTS 核心模块

研究员们根据神经语音合成系统的核心模块提出了一个分类体系。每个模块分别对应特定的数据转换流程：

1）文本分析模块将文本字符转换成音素或语言学特征；

2）声学模型将语言学特征、音素或字符序列转换成声学特征；

3）声码器将语言学特征或声学特征转换成语音波形；

4）完全端到端模型将字符或音素序列转换成语音波形。

2021_A Survey on Audio Synthesis and Audio-Visual Multimodal Processing（音频合成与视听多模态处理综述）

论文：2108.00443.pdf (arxiv.org)

SOTA

2022_NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

论文：2205.04421v2.pdf (arxiv.org)

TTS经典论文

2016_WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

论文：1609.03499.pdf (arxiv.org)

【3，4】本文的四大特点如下：

WaveNet 直接生成自然的语音波形。

提出了一种可以学习和生成长语音波形的新结构。

训练的模型可以产生各种特征语音，因为状态建模。

它在各种语音生成（包括音乐）中也表现出色。

WaveNet模型结构

WaveNet 具有 30 个救援块的结构。将整数数组作为输入，从第一个区域块到第 30 个区域性块依次进入。从每个区域块生成的输出通过 Skip 连接合并，并将其用作模型的输出。

2018_NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

论文：2108.00443.pdf (arxiv.org)

随着深度学习方法（如 WaveNet 和 Tacotron）的应用，TTS （TTS）发展迅速。因此，现在无需复杂的工作流程即可训练数据，从而从文本中生成高质量的语音【1，2】。

论文的三大特点如下：

基于 Attention 的 Seq-to-Seq提出了TTS模型结构。

<端到端模型>，只需对<语句、语音和对的数据即可进行训练，无需执行任何操作。

在语音合成质量测试（MOS）中得分较高。合成质量好。

2017.3_Deep Voice: Real-time Neural Text-to-Speech

论文：https://arxiv.org/abs/1702.07825

2017.5_Deep Voice 2: Multi-Speaker Neural Text-to-Speech

2018_DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCELEARNING

论文：

参考文献

【1】[논문리뷰]Tacotron2 - 새내기 코드 여행 (joungheekim.github.io)

【2】[Speech Synthesis] Tacotron 논문 정리 (hcnoh.github.io)

【3】[논문리뷰]WaveNet - 새내기 코드 여행 (joungheekim.github.io)

【4】Understanding WaveNet architecture | by Satyam Kumar | Medium

References

[1] Sercan Ömer Arik, Mike Chrzanowski, Adam Coates, Gregory Frederick Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Y. Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi: Deep Voice: Real-time Neural Text-to-Speech. ICML 2017: 195-204

[2] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O.Arık, Ajay Kannan, Sharan Naran: DEEP VOICE 3: 2000-SPEAKER NEURAL TEXT-TO-SPEECH. CoRR abs/1710.07654 (2017)

[3] Sercan Ömer Arik, Gregory F. Diamos, Andrew Gibiansky, John Miller, Kainan Peng, Wei Ping, Jonathan Raiman, Yanqi Zhou: Deep Voice 2: Multi-Speaker Neural Text-to-Speech. CoRR abs/1705.08947 (2017)

[4] Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, Koray Kavukcuoglu: WaveNet: A Generative Model for Raw Audio. CoRR abs/1609.03499 (2016)

[5] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron C. Courville, Yoshua Bengio: SampleRNN: An Unconditional End-to-End Neural Audio Generation Model. CoRR abs/1612.07837 (2016)

[6] Sotelo, J., Mehri, S., Kumar, K., Santos, J. F., Kastner, K., Courville, A., & Bengio, Y. (2017). Char2Wav: End-to-end speech synthesis.

[7] Yuxuan Wang, R. J. Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc V. Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A. Saurous: Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model. CoRR abs/1703.10135 (2017)

[8] Wang, W., Xu, S., & Xu, B. (2016). First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. INTERSPEECH.

TTS | 语音合成论文概述

综述系列2021_A Survey on Neural Speech Synthesis论文：2106.15561.pdf (arxiv.org)论文从两个方面对神经语音合成领域的发展现状进行了梳理总结（逻辑框架如图1所示）：核心模块：分别从文本分析（textanalysi…...

编程日记 2023/4/18 1:19:18

HTML第5天 HTML新标签与特性

新标签与特性文档类型设定前端复习帮手W3Schoool常用新标签datalist标签，与input元素配合，定义选项列表fieldset元素新增input表单文档类型设定 document – HTML: 开发环境输入html:4s – XHTML: 开发环境输入html:xt – HTML5: 开发环境输入html:5 前…...

编程日记 2023/4/21 4:22:04

java ee 之进程

目录 1.进程的概念 2.进程管理 3.进程属性(pcb) 3.1pid 3.2内存指针 3.3文件描述符 3.4进程调度 3.4.1进程状态 3.4.2 进程的优先级 3.4.3进程的上下文 3.4.4进程的记账信息 5.进程间通信 1.进程的概念一个运行起来的程序,就是进程 .exe是一个可执行文件(程序),双…...

编程日记 2023/4/21 4:22:01

Linux学习记录——십사 进程控制（1）

文章目录1、进程创建1、fork函数2、进程终止1、情况分类2、如何理解进程终止3、进程终止的方式3、进程等待1、进程创建 1、fork函数 fork函数从已存在进程中创建一个新进程，新进程为子进程，原进程为父进程。 #include <unistd.h> pid_t fork(vo…...

编程日记 2023/4/21 4:21:56

使用 create-react-app 脚手架搭建React项目

❀官网 1、安装脚手架：npm install -g create-react-app 2、查看版本：create-react-app -V ！！！注意 Node版本必须是14以上，不然会报以下错误。 3、创建react项目（项目名不能包含大写字母&…...

编程日记 2023/4/21 4:21:52

inquirerjs

inquirerjs inquirerjs是一个用来实现命令行交互界面的工具集合。它帮助我们实现与用户的交互交流，比如给用户一个提醒，用户给我们一个答案，我们根据用户的答案来做一些事情，典型应用如plop等生成器工具。 npm install inquirer…...

编程日记 2023/4/21 4:21:49

[数据库]内置函数

●🧑个人主页:你帅你先说. ●📃欢迎点赞👍关注💡收藏💖 ●📖既选择了远方，便只顾风雨兼程。 ●🤟欢迎大家有问题随时私信我！ ●🧐版权：本文由[你帅…...

编程日记 2023/4/17 5:29:05

shell基本知识

为什么学习和使用Shell编程什么是Shell shell的起源 shell的功能 shell的分类如何查看当前系统支持的shell？ 如何查看当前系统默认shell？ 驼峰语句 shell脚本的基本元素 shell脚本编写规范 shell脚本的执行方式 shell脚本的退出状态 &#xf…...

编程日记 2023/4/21 4:21:45

Http长连接和短连接

http1.0以前，默认使用的是短连接，客户端与服务器之间每进行一次http操作，就会建立一次连接，例如，打开一个网页，包括html文件，js，css，每获取一次资源，就需要进…...

编程日记 2023/4/17 5:29:01

[SQL Statements] 基本的SQL知识之DDL针对表结构和表空间的基本操作

[SQL Statements] 基本的SQL知识之DDL针对表结构和表空间的基本操作什么是数据库的表以及表空间在MySQL中，一个数据库可以包含多个表，每个表是由若干个列（column）和行（row）组成的。表是存储数据的基本…...

编程日记 2023/4/17 14:10:13

Git版本控制工具（详解）

Git版本控制工具 Git常见命令速查表集中式版本控制 cvs和svn都是属于集中式版本控制系统他们的主要特点是单一的集中管理服务器保存所有文件的修订版本协同开发人员通过客户端连接到这台服务器取出最新的文件或者提交更新优点每个人都可以在一定程度上看到项目中的其他…...

编程日记 2023/4/17 14:10:07

$(2^{4}-P)\times2 ^{6}-Q\times 2^{6}$

408考研计算机之计算机组成与设计——知识点及其做题经验篇目2：指令系统

今天我们来讲一讲指令系统里面的知识点以及做题技巧 1、定义考点1：指令定义指令是指示计算机执行某种操作的命令，一台计算机的所有指令的集合构成该机的指令系统，也称为指令集。指令系统是指令集体系结构ISA中最核心的部分，ISA…...

编程日记 2023/4/17 14:09:58

Java语法中的方法引用：：是个什么鬼？

1.函数式接口函数式接口（Functional Interface）就是一个有且仅有一个抽象方法（通俗来说就是只有一个方法要去被实现，因此我们也能通过这个去动态推断参数类型），但是可以拥有多个非抽象方法的接口。函数式接…...

编程日记 2023/4/17 14:09:54

【使用vue init和vue create的区别以及搭建vue项目的教程】

vue init 是vue-cli2.x的初始化方式，可以使用github上面的一些模板来初始化项目 webpack是官方推荐的标准模板名使用方式：vue init webpack 项目名称例如使用github上面electron-vue的模板使用方式：vue init electron-vue 项目名称教程目…...

编程日记 2023/4/17 14:09:48

二、HTTP协议02

文章目录一、HTTP状态管理Cookie和Session二、HTTP协议之身份认证三、HTTP长连接与短连接四、HTTP中介之代理五、HTTP中介之网关六、HTTP之内容协商七、断点续传和多线程下载一、HTTP状态管理Cookie和Session HTTP的缺陷无状态。Cookie和Session就用来弥补这个缺陷的。 Cooki…...

编程日记 2023/4/16 3:49:22

免费Api接口汇总（亲测可用，可写项目）

免费Api接口汇总（亲测可用）1. 聚合数据2. 用友API3. 天行数据4. Free Api5. 购物商城6. 网易云音乐API7. 疫情API8. 免费Api合集1. 聚合数据 https://www.juhe.cn/ 2. 用友API http://iwenwiki.com/wapicovid19/ 3. 天行数据 https://www.tianapi.com…...

编程日记 2023/4/17 14:09:40

12.并发编程

1.并发并发：逻辑流在时间时重叠构造并发程序：进程：每个逻辑控制流是一个进程，由内核调度和维护进程有独立的虚拟地址空间，想要通信，控制流必须使用某种显式的进程间通信机制(IPC)I/O多路复用：程…...

编程日记 2023/4/17 14:09:34

C/C++指针与数组（一）

预备知识 1、数据的存储 2、基本内建类型 1）类型的大小 C offers a flexible standard with some guaranteed minimum sizes, which it takes from C: A short integer is at least 16 bits wide.An int integer is at least as big as short.A long integer is a…...

编程日记 2023/4/17 14:09:29

Android使用移动智能终端补充设备标识获取OAID

官网http://www.msa-alliance.cn/col.jsp?id120首先到官网注册账号，申请下载相关sdk和授权证书2.把 oaid_sdk_x.x.x.aar 拷贝到项目的 libs 目录，并设置依赖，其中x.x.x 代表版本号3.supplierconfig.json 拷贝到项目 assets 目录下&#xff0…...

编程日记 2023/4/17 14:09:21

极目智能与锐算科技达成战略合作，4D毫米波成像雷达助力智能驾驶落地

近日，智能驾驶方案提供商武汉极目智能技术有限公司（以下简称“极目智能”）宣布与毫米波成像雷达公司锐算（上海）科技有限公司（以下简称“锐算科技”）达成战略合作，双方将合作开发基于…...

编程日记 2023/4/17 14:09:13

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

手游刚开服就被攻击怎么办？如何防御DDoS？

开服初期是手游最脆弱的阶段，极易成为DDoS攻击的目标。一旦遭遇攻击，可能导致服务器瘫痪、玩家流失，甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案，帮助快速应对并构建长期防护体系。一、遭遇攻击的紧急应…...

编程新知 2026/2/8 4:37:03

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装（Encapsulation） 定义：将数据（属性）和操作数据的方法绑定在一起，通过访问控制符（private、protected、public）隐藏内部实现细节。示例： public …...

编程新知 2025/10/6 4:03:40

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件： 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

编程新知 2026/2/7 19:53:11

汽车生产虚拟实训中的技能提升与生产优化

在制造业蓬勃发展的大背景下，虚拟教学实训宛如一颗璀璨的新星，正发挥着不可或缺且日益凸显的关键作用，源源不断地为企业的稳健前行与创新发展注入磅礴强大的动力。就以汽车制造企业这一极具代表性的行业主体为例，汽车生产线上各类…...

编程新知 2026/1/27 7:46:36

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2026/1/25 6:36:06

React19源码系列之事件插件系统

事件类别事件类型定义文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

编程新知 2026/2/7 8:31:55

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2026/1/27 9:33:09

AI，如何重构理解、匹配与决策？

AI 时代，我们如何理解消费？ 作者｜王彬封面｜Unplash 人们通过信息理解世界。曾几何时，PC 与移动互联网重塑了人们的购物路径：信息变得唾手可得，商品决策变得高度依赖内容。但 AI 时代的来…...

编程新知 2026/1/30 2:33:11

基于 TAPD 进行项目管理

起因自己写了个小工具，仓库用的Github。之前在用markdown进行需求管理，现在随着功能的增加，感觉有点难以管理了，所以用TAPD这个工具进行需求、Bug管理。操作流程注册 TAPD，需要提供一个企业名新建一个项目&#…...

编程新知 2026/1/24 14:15:44

综述系列