当前位置: 首页 > news >正文

SeamlessM4T—Massively Multilingual Multimodal Machine Translation

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。

SeamlessM4T:大规模语言多模态机器翻译

  • 摘要
  • 1 引言
  • 2 多模态翻译的社会技术维度
    • 2.1
    • 2.2
    • 2.3
  • 3 SeamlessAlign:自动创建语音对齐数据
  • 4 SeamlessM4T模型
  • 5 自动和人工评估
  • 6 负责任的AI
  • 7 社会影响与结论
    • 7.1 增强世界准备度
    • 7.2 未来工作

摘要

如何创建Babel Fish,一个可以帮助个人在任何两种语言之间翻译语音的工具?虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外,但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说,传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译,这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距,我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型,支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点,我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后,我们创建了一个多模态的自动对齐语音翻译语料库,名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据(总计406000小时),我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上,SeamlessM4T为翻译成多种目标语言设定了一个新的标准,在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比,SeamlessM4T在语音到文本中提高了1.3个BLEU点,在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上,与用于语音转换的两级级联模型相比,Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统,我们开发了Blaser 2.0,在质量估计方面,与前代系统相比,它能够以类似的精度对语音和文本进行评估。经过稳健性测试,与当前最先进的模型相比,我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好(平均分别提高了38%和49%)。至关重要的是,我们评估了Seamless M4T的性别偏见,并增加了毒性以评估翻译安全性。与最先进的相比,我们报告翻译输出中的附加毒性降低了63%。最后,这项工作中的所有贡献——包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方,以及重新创建SeamlessAlign未经过滤的47万小时的元数据——都是开源的,可以通过https://github.com/facebookresearch/seamless_communication访问.

1 引言

2 多模态翻译的社会技术维度

2.1

2.2

2.3

3 SeamlessAlign:自动创建语音对齐数据

4 SeamlessM4T模型

5 自动和人工评估

6 负责任的AI

7 社会影响与结论

人类交流是多感官的——我们接受来自几种模式的感官输入,以动态的方式处理信息。在多语言环境中,基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说,虽然NLLB等基础模型将T2TT推向了200种语言之外,但直接语音翻译尚未取得类似的进展。为了弥补这一差距,我们创建了一个大规模的多语言和多模态机器翻译系统,为下一代语音翻译技术铺平了道路。
使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中,我们的主要贡献如下。首先,我们建立了一个与我们的语言覆盖范围相一致的新LID模型,并在新构思的SONAR(一个多语言和多模式句子嵌入空间)的帮助下进行语音挖掘,以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块,(1)Seamless M4T NLLB,一个大规模多语言T2TT模型,(2)w2v BERT 2.0,一个在未标记语音音频数据上预训练的语音表示学习模型,(3)T2U,一个文本到单元序列到序列模型,和(4)HiFi GAN,一个用于从单元合成语音的多语言声码器,我们建立了一个统一的模型,涵盖了从100种语言到英语(100 eng)的S2ST,从英语到35种语言(eng-35),以及100 eng和eng-95语言的S2TT。值得注意的是,与之前在S2ST上的工作相比,SeamlessM4T能够执行从英语到35个方向的翻译,S2ST主要提供英语翻译,而不是英语翻译。在S2TT方面,SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后,我们评估了我们的模型的稳健性,发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果,我们希望激励未来针对缓解努力的工作。
为了促进可访问性,我们开源了我们工作的所有贡献,包括两种规模的模型,以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中,我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。

7.1 增强世界准备度

我们生活的世界从未像现在这样相互关联——互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的“世界准备度”提出了要求,这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的,它强调了能够用母语以外的语言进行交流的重要性,这既有工具原因(即就业或上学),也有文化原因(即成为全球公民)。也就是说,尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制,但我们承认,这样做需要许多人可能不具备的精神和物质资源。
SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换,实现按需访问,以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样,Seamless M4T也可能对语音产生同样的效果。研究表明,与母语相反,在母语中,言语比阅读或写作更自然地习得,当涉及到外语时,这种趋势发生了逆转。换言之,在外语环境中,演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制,支持用户进行多语言对话,并增强他们对语音密集交互的信心。随着基于语音的界面(即音频助手、语音备忘录、实时转录等)和听觉内容(即播客、有声读物、短视频等)越来越多地出现在人们的生活中,SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验,并且比基于文本的应用程序更自然、更动态。
从包容性的角度来看,Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响(如第2节所述)。对于许多缺乏阅读或写作技能,或无法依赖视力的人(即盲人或视力障碍者)来说,语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息,而且能够以更适合他们交际需求的方式进行翻译。此外,认识到某些语言可能存在脚本差异,SeamlessM4T提供了可供性,有助于规避多脚本难题。对于没有标准化书写系统的语言,对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。

7.2 未来工作

与大多数技术一样,收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力,但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如,与许多其他语音技术一样,Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外,我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。
S2ST面临的另一个挑战是,与书面语言相比,语音取决于即时接收和反馈。换句话说,说话者在确定输出质量或在现场对话中进行“编辑”的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订,S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是,我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备,而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。
最后,语音不是口语文本,它包括一套韵律(即节奏、重音和语调)和情感成分,值得进一步研究。为了创建感觉有机和自然的S2ST系统,应将更多的研究转向保持表现力的输出生成。此外,Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统(即,在输入句子呈现时逐步翻译输入句子)可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。

相关文章:

SeamlessM4T—Massively Multilingual Multimodal Machine Translation

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。 SeamlessM4T:大规模语言多模态机器翻译 摘要1 引言2 多模态翻译的社会技术维度2.12.22.3 3 SeamlessAlign:自动创建语音对…...

Python数据分析-Numpy

Numpy 个人笔记,仅供参考,谢谢 导入 import numpy import numpy as np from numpy import *Numpy数组对象 引入 # 让列表1 a [1,2,3,4],b [4,5,6,7] [x1 for x in a] # 实现ab a b > [1,2,3,4,5,6,7,8] [x y for (x,y) in zip(a,b)] -------…...

【真题解析】系统集成项目管理工程师 2023 年上半年真题卷(案例分析)

本文为系统集成项目管理工程师考试(软考) 2023 年上半年真题(全国卷),包含答案与详细解析。考试共分为两科,成绩均 ≥45 即可通过考试: 综合知识(选择题 75 道,75分)案例分析(问答题 4 道,75分)案例分析(问答题*4)试题一试题二试题三试题四案例分析(问答题*4) …...

【GAMES202】Real-Time Global Illumination(in 3D)—实时全局光照(3D空间)

一、SH for Glossy transport 1.Diffuse PRT回顾 上篇我们介绍了PRT,并以Diffuse的BRDF作为例子分析了预计算的部分,包括Lighting和Light transport,如上图所示。 包括我们还提到了SH,可以用SH的有限阶近似拟合球面函数&#xff…...

金蝶云星空二开,公有云执行SQL

功能背景; 金蝶公有云执行sql工具,因官方为云部署 用户无法连接数据库增删改查 天梯维护网页仅支持增删改操作 二开单据已支持根据sql动态生成单据体 与sql可视化界面操作一致 功能实现及场景: 1.可用于公有云执行sql类操作 2.私有云部署&am…...

JAVA String 二维的字符串数组 String[][]

String[][] 表示一个二维的字符串数组,也可以称为字符串矩阵。它是由多个一维的字符串数组组成的,每个一维数组都表示矩阵中的一行。 在 Java 中,可以使用如下方式声明和初始化一个二维字符串数组: String[][] matrix new Strin…...

【Unity3D赛车游戏优化篇】【九】Unity中如何让汽车丝滑漂移?

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…...

el-dialog设置高度、使用resetFields清除表单项无效问题

初学者容易踩坑的的el-dialog、el-form问题 1. el-dialog设置高度2. el-form中表单项对不齐3. 使用resetFields清除表单项无效 1. el-dialog设置高度 在el-dialog中里面添加一个div设置固定高度&#xff0c;或者限制最小的高度。 <el-dialogtitle"选择图标"v-mod…...

MySql切换到达梦数据库,各种问题解决记录

参考官方文档&#xff1a; https://eco.dameng.com/document/dm/zh-cn/sql-dev/practice-func.html 1. 关键字导致的报错&#xff1a;如ref,comment,top,domain等 Error -2007: 第 1 行, 第 117 列[ref]附近出现错误: 语法分析出错解决方案&#xff1a;修改关键字即可 2. 查…...

2023开学礼山东财经大学《乡村振兴战略下传统村落文化旅游设计》许少辉新财经图书馆

2023开学礼山东财经大学《乡村振兴战略下传统村落文化旅游设计》许少辉新财经图书馆...

vscode中使用eslint+prettier的配置

eslintprettiervscode自动保存用起来感觉非常爽快。 一般来说&#xff0c;安装eslintprettier插件&#xff0c;然后使用相关脚手架配套的eslintprettier&#xff0c;无法自动格式代码&#xff0c;每次都需要执行格式化命令。这里贴出保存自动格式化代码的setting.json。 // .…...

HTML 标签讲解

HTML 标签讲解 HTML 语言结构根元素元数据元素主体根元素大纲元素文本内容语义化内联文本图像与多媒体编辑标识table表格内容表单内容table表单 HTML 语言结构 Markup &#xff08;标记、标签&#xff09;用来容纳和描述内容 严格意义上&#xff0c;标签是指开始标签&#xf…...

ue5 小知识点 ue的world type,pie editor game

说明以该命令行模式启动游戏的前提下的两个问题&#xff1a; 1.WITH_EDITOR中的代码会被编译 2.由于没有在编辑器中(即没有打开虚幻编辑器)&#xff0c;所以GIsEditor为false WITH_EDITOR和WITH_EDITORONLY_DATA的区别 在论坛中找到的答案&#xff1a; WITH_EDITORONLY_DAT…...

两表union 如何保证group by 字段唯一

当要计算的指标可能来源多个表时&#xff0c;可能会使用到union all把不同的表中计算的指标合起来。关于union all使用条件&#xff1a;两个要联合的SQL语句 字段个数必须一样&#xff0c;而且字段类型要“相容”&#xff08;一致&#xff09; 另外&#xff0c;回顾union和uni…...

【⑰MySQL】 变量 | 循环 | 游标 | 处理程序

前言 ✨欢迎来到小K的MySQL专栏&#xff0c;本节将为大家带来MySQL变量 | 循环 | 游标 | 处理程序的分享✨ 目录 前言1. 变量1.1系统变量1.2 用户变量 2. 定义条件与处理程序2.1 案例分析2.2 定义条件2.3 定义处理程序2.4 案例解决 3. 流程控制3.1 分支结构3.2 循环结构3.3 跳转…...

如何在arXiv上发表一篇文章

目录 1. 初始信息确认2. 提交论文文件3. 论文编译结果4. 补充论文信息5. 总览 1. 初始信息确认 版权问题需要根据个人情况选择。 IEEE, Elsevier, BioMed Central, 这几个出版商都允许在投稿之前挂文章到arXiv下。通常是选择&#xff1a; arXiv.org perpetual, non-exclusive l…...

重要性采样

重要性采样 前言 离散型随机变量 X X X&#xff0c;我们可以通过以下方法求取其期望&#xff1a; 直接计算法&#xff0c;需要知道概率分布&#xff1a; E ( X ) ∑ x ∈ X [ p ( x ) ⋅ x ] \mathbb{E}(X)\sum_{x\in X}\left[p(x)\cdot x\right] E(X)x∈X∑​[p(x)⋅x] 采…...

说说Omega架构

分析&回答 Omega架构我们暂且称之为混合数仓。 什么是ECS设计模式 在谈我们的解法的时候&#xff0c;必须要先提ECS的设计模式。 简单的说&#xff0c;Entity、Component、System分别代表了三类模型。 实体(Entity)&#xff1a;实体是一个普通的对象。通常&#xff0c…...

高忆管理:光刻胶概念强势拉升,同益股份、格林达涨停

光刻胶概念5日盘中强势拉升&#xff0c;截至发稿&#xff0c;同益股份、格林达涨停&#xff0c;波长光电、晶瑞电材涨超7%&#xff0c;容大感光涨逾5%&#xff0c;华懋科技、茂莱光学、苏大维格、南大光电等均走强。 音讯面上&#xff0c;据新加坡《联合早报》网站9月2日报导&…...

计算机图形学线性代数相关概念

Transformation&#xff08;2D-Model&#xff09; Scale(缩放) [ x ′ y ′ ] [ s 0 0 s ] [ x y ] (等比例缩放) \left[ \begin{matrix} x \\ y \end{matrix} \right] \left[ \begin{matrix} s & 0 \\ 0 & s \end{matrix} \right] \left[ \begin{matrix} x \\ y \en…...

开源PHP 代挂机源码,可对接QQ、网易云、哔哩哔哩、QQ空间、等级加速等等

本程序运行环境PHP5.6 95dg/config.php修改系统数据库 进入数据库绑定 你搭建的域名即可 部署完成 进入数据库 找到data 输入绑定授权域名即可进行授权打开此网站 网站是无对接接口 需要您自行找对接接口即可 本源码有点乱 有实力的铁铁 可以修改一下哦&#xff01;...

【仿牛客论坛java项目】第五章 Kafka,构建TB级异步消息系统:阻塞队列、Kafka入门、Spring整合Kafka、发送系统通知、显示系统通知

这里写自定义目录标题 一、阻塞队列简单的阻塞队列测试案例总结阻塞队列 二、Kafka入门1、基础知识Kafka术语消息队列实现方式两种 2、配置3、启动全部命令启动 zookeeper 服务器再启动 kafka 服务器创建Topic关闭 4、总结Kafka的特点Kafka的术语 三、 Spring整合Kafka导入依赖…...

【AIGC专题】Stable Diffusion 从入门到企业级实战0401

一、概述 本章是《Stable Diffusion 从入门到企业级实战》系列的第四部分能力进阶篇《Stable Diffusion ControlNet v1.1 图像精准控制》第01节&#xff0c; 利用Stable Diffusion ControlNet Inpaint模型精准控制图像生成。本部分内容&#xff0c;位于整个Stable Diffusion生…...

Matlab信号处理1:模拟去除信号噪声

由于工作内容涉及信号系统、信号处理相关知识&#xff0c;本人本硕均为计算机相关专业&#xff0c;专业、研究方向均未涉及信号相关知识&#xff0c;因此需进行系统地学习。之前已将《信号与系统》快速过了一遍&#xff0c;但感觉较抽象且理解较浅显。在此系统地学习如何使用Ma…...

Bootstrap的行、列布局设计(网络系统设计)

目录 00-基础知识01-等宽列布局02-指定某一列的宽度03-根据内容自动改变列的宽度04-五种预定义列宽度 .col、.col-sm-*、.col-md-*、.col-lg-*、.col-xl-*05-不同视口宽度按不同的分列方案划分06-删除列内容的盒模型的外边距07-超过12列怎么办&#xff1f;08-重新排列各列的顺序…...

1.1 计算机网络在信息时代中的作用

思维导图&#xff1a; 正文&#xff1a; 我的理解&#xff1a; 这段话是一本书或课程的第一章简介&#xff0c;它的目的是为读者或学生提供一个关于计算机网络基础知识的框架或大纲。 首先&#xff0c;它强调了这章是整本书的一个概览&#xff0c;会先介绍计算机网络在信息时…...

mysql CONCAT使用

问题 有一个查找数据的mysql语句&#xff1a;SELECT DISTINCT fund_id,version,statistic_date FROM fund_nv_divident WHERE version ( SELECT max(version) FROM fund_nv_divident) and statistic_date > ‘2023-06-04’ and fund_id not in (SELECT DISTINCT fund_id f…...

maven基础学习

什么是maven 构建 依赖 maven核心概念坐标 在黑窗口使用maven命令生成maven工程 pom.xml 想导入哪个jar包把它的坐标放到dependency里就可以 maven核心概念POM maven核心概念约定的目录结构 执行maven的构建命令 清理操作&#xff0c;clean 编译操作 compile 测试操作 test 打包…...

uniapp移动端地图,点击气泡弹窗并实现精准定位

记录移动端地图map组件的使用 需求记录&#xff1a; 移动端地图部分需要展示两个定位点&#xff0c;上报点及人员定位点。通过右上角的两个按钮实现地图定位。点击对应定位气泡&#xff0c;弹出定位点的信息。 效果图如下&#xff1a; map在nvue中的使用。直接用nvue可以直接…...

2023牛客暑期多校训练营7 CI「位运算」「根号分治+容斥」

C-Beautiful Sequence_2023牛客暑期多校训练营7 (nowcoder.com) 题意&#xff1a; 给定一个b序列&#xff0c;a序列满足 a [ i − 1 ] < a [ i ] a[i-1]<a[i] a[i−1]<a[i]且 a [ i ] ⊕ a [ i 1 ] b [ i ] a[i]\oplus a[i1]b[i] a[i]⊕a[i1]b[i]&#xff0c;求字…...

招商网站建设定做/长春头条新闻今天

Java有个特点就是序列化&#xff0c;简单地来说就是可以将这个类存储在物理空间&#xff08;当然还是以文件的形式存在&#xff09;&#xff0c;那么当你从本地还原这个文件时&#xff0c;你可以将它转换为它本身。这可以极大地方便网络上的一些操作&#xff0c;但同时&#xf…...

网站跳出率多少合适/seo搜索引擎优化书籍

Java中的abstract详解 abstract关键字只能用于修饰类和方法。用来表明所定义的类或方法时未实现的。abstract定义 abstract class Person {//抽象类public abstract String getDescription();//抽象方法}注意&#xff1a;包含一个或多个抽象方法的类本身必须被声明为抽象的。类…...

服务器地址怎么查/网络优化seo薪酬

第一部分 windows 注册表相关 禁止匿名获取本机信息 http://blog.csdn.net/ex_net/article/details/595358启用Explorer桌面独立进程 http://blog.csdn.net/ex_net/article/details/595360允许Windows预读 http://blog.csdn.net/ex_net/artic…...

网站更换主机需要怎么做/合肥seo网站管理

数据库基本概念&#xff1a;OLTP/OLAP/HTAP、RPO/RTO、MPPOLTPOLAPHTAP行存储列存储MPPRTORPOOLTP OLTPOnline Transaction Processing联机事务处理 OLTP 是事件驱动、面向应用的&#xff0c;也称为面向交易的处理过程。其基本特征是前台接收的用户数据可以立即传送到计算中心进…...

wordpress建导航/企业广告宣传

如果Source&#xff0c;Target&#xff0c;Mapping和Session都不存在性能上的瓶颈&#xff0c;则问题可能会出在System 因为Integration Service运行时&#xff0c;它使用了System的资源去运行组件&#xff0c;session,以及读写数据 也使用System内存资源为Aggregator, Joiner,…...

网站建设 php/公司网站如何在百度上能搜索到

echo -n #表示不换行输出 echo -e #输出转义字符&#xff0c;将转义后的内容输出到屏幕上 常用的转义字符如下: \b #转义后相当于按退格键(backspace) &#xff0c;但前提是"\b"后面存在字符; "\b"表示删除前一一个字符&#xff0c;"\b\b" 表…...