Meta利用视觉信息来优化3D音频模型,未来将用于AR/VR
我们知道,Meta为了给AR眼镜打造智能助手,专门开发了第一人称视觉模型和数据集。与此同时,该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手,同时结合视觉和声音数据来感知环境,可进一步增强智能助手的能力,比如模拟人类感知世界的方式,来理解声音在空间的传播方式。
Meta表示:在元宇宙社交、AR观影等多种场景中,声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求,Meta决定采用AI来实现高保真的音质,并与沉浸的空间逼真匹配。
https://v.qq.com/txp/iframe/player.html?vid=j3345qptjox
为此,Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作,开发了三个专为AR/VR打造的声音合成AI模型:Visual Acoustic Matching Model(视听匹配模型)、Visually-Informed Dereverberation(基于视觉信息的抗混响模型)、VisualVoice(利用视听提示将对话和背景音区分)。它们特点是可对视频中人类对话和声音进行视听理解,并与3D空间定位进行匹配,实现沉浸的空间音频效果。
简单来讲,这种AI模型根据外观和声音来理解物理环境。我们知道,声音在不同的物理空间中听起来也会有不同,比如在山洞里你会听到自己说话的回声,而在音乐厅和客厅两种不同规模的空间中,声音传播效果也不相同。这是因为,声音传播路径受到空间结构、材料和表面纹理、距离等因素影响,因此听起来会有所不同。
一,Visual Acoustic Matching Model(视听匹配模型)
在这个模型中输入在任何场景录制的音频片段,以及一张目标场景的图像,便可以将录音片段与目标场景融合,音频听起来就像是在目标场景中录制的那样。比如,可以将洞穴中录制的音频与餐厅图像融合,输出的语音听起来就会像在餐厅中录制的那样。
通常在看一段视频时,如果视频的声音和视觉不匹配(不符合传统认知),会造成不自然的体验,人可以轻易发现这种差异,并认为视频声音为后期配音。
利用声音模型,科研人员可模拟声音在房间中传播产生的脉冲,来重现空间的声学效果。但这种方式需要结合空间3D网格,来测定空间的几何结构、材料属性。在大多数情况下,这些信息并不是已知的,因此声学模型难以实现。
科研人员指出,也可以根据在特定空间中捕捉的音频,通过声音在目标空间中产生的混响,来预测声学特性,但缺点是智能获得有限的声音信息,因此模拟效果通常不够好。
为了解决上述问题,Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型,特点是可通过调整音频,来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型,它可以通过复合模式推理,将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外,AViTAR模型可利用任意网络视频,来进行自我监督训练,练习匹配声音和图像。
Meta为AViTAR创建了两个数据集,其中一个建立在开源AI视听平台SoundSpaces基础上,另一个数据集包含了29万个公开可用的英语对话视频(3到10秒片段)。据悉,SoundSpaces是Meta在2020年开源的AI平台,其特点是建立在虚拟仿真平台AI Habitat之上,可模拟高保真、逼真的声源,并插入到Replica、Matterport3D等开源的真实场景扫描环境中。
这两个数据集主要包含了室内场景中的对话,目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案,数据集中的视频拍摄也有要求,麦克风和摄像头在同一个位置,并且远离声源。
为了训练AI模型识别声音和场景不匹配,Meta科研人员还制作了一系列音画不匹配的随机合成视频,并加入噪声。
利用这些数据,科研人员验证了视听匹配模型的效果,结果发现该模型可成功将对话与目标图像场景融合,效果比传统的纯音频声学匹配方案更好。
二,Visually-Informed Dereverberation(基于视觉信息的抗混响模型)
和上一个模型相反,Visually-Informed Dereverberation(VIDA)专注于消除混响,比如去除声音在洞穴中传播产生的回声。该模型根据视听提示,来优化、筛选音频中的混响。在热闹的火车站场景中,该模型可以提取小提琴演奏的声音,并去除小提琴声与火车站场景交互而产生的回响,好处是可以让小提琴声音听起来更纯粹。
在AR场景重现时,更沉浸、纯粹的声音可以让第一人称观看体验更加保真。
我们知道,回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程,则被视为混响。混响、回声通常会降低音频质量,降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时,通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。
去除混响后,便可以增强声音的重点,帮助自然语言模型更好的识别对话,并生成更准确的字幕。
此前,人们通常直接处理音频来消除混响,但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频,Meta科研人员提出了搭配视觉分析的方案:VIDA,也就是说利用视觉数据来辅助混响消除。
VIDA模型基于视听数据来训练,可通过识别空间结构、材质和扬声器等线索,来消除混响。
三,VisualVoice(利用视听提示将对话和背景音区分)
VisualVoice模型利用视听提示,来区分对话和背景音,其好处是可以帮助人和AI更好的听清对话,从而提升多人VR社交的沟通效率、实时字幕效果等等。
Meta设想了一个未来场景,即人们通过AR眼镜以第一人称视角,重温沉浸的全息回忆,并获得保真的视觉和声音体验。或是在VR游戏中,空间音频可进一步增强沉浸感。
这个模型同时通过视听数据来分析对话,Meta认为,这项技术是改善人机感知的重要因素。
Meta指出,在复杂环境中,人类可以比AI更好的理解对话,这是因为人不止会用耳朵听,也会用眼睛辅助。举个例子,当你周围有人说话时,你可以用耳朵听到他的声音和声音来源,同时也可以用眼睛来定位这个说话人的具体位置。
因此,Meta AI决定开发一个同时模拟视觉和听觉感知的多模式对话模型,帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频,也能训练VisualVoice模型提取对话中的视听信息。
未来应用场景
Meta表示:利用这些智能的AI语音分割模型,未来虚拟助手可以随时随地听到你的指令,不管是在音乐会、热闹的聚会还是其他环境音量大的场景。
接下来,若想要为AR/VR构建更加沉浸的体验,将需要这种多模式的AI模型,才能模拟人类感知的方式,通过音频、视频、文本等信号来更好的理解周围环境。
为了继续优化AViTAR、VITA等模型,Meta未来将使用视频来训练AI捕捉空间声学特性。参考:fb
相关文章:
Meta利用视觉信息来优化3D音频模型,未来将用于AR/VR
我们知道,Meta为了给AR眼镜打造智能助手,专门开发了第一人称视觉模型和数据集。与此同时,该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手,同时结合视觉和声音数据来感知环境,可进一步增强智能…...
openlayers加载离线地图并实现深色地图
问题背景 我们自己一直使用的openlayergeoserver自己发布的地图,使用的是矢量地图。但是由于政府地图大都使用为天地图,所以需要将geoserver的矢量地图更改为天地图,并且依旧是搭配openlayers来使用。 解决步骤 一:加载离线地图&a…...
socket,tcp,http三者之间的区别和原理
目录 一、OSI模型也称七层网络模型 1、TCP/IP连接 1.1三次握手与四次挥手的简单理解:(面试重点) 1.2面试考题:如果已经建立了连接,但是客户端突然出现故障了怎么办? 1.3 socket、tcp、http三者之间有什…...
红日(vulnstack)1 内网渗透ATTCK实战
环境准备 靶机链接:百度网盘 请输入提取码 提取码:sx22 攻击机系统:kali linux 2022.03 网络配置: win7配置: kali配置: kali 192.168.1.108 192.168.111.129 桥接一块,自定义网卡4 win7 1…...
ik 分词器怎么调用缓存的词库
IK 分词器是一个基于 Java 实现的中文分词器,它支持在分词时调用缓存的词库。 要使用 IK 分词器调用缓存的词库,你需要完成以下步骤: 创建 IK 分词器实例 首先,你需要创建一个 IK 分词器的实例。可以通过以下代码创建一个 IK 分…...
ROS1/2机器人操作系统与时间Time的不解之缘
时间对于机器人操作系统非常重要。所有机器人类的编程中所涉及的变量如果需要在网络中传输都需要这个数据结构的时间戳。宏观上,ROS1、ROS2各版本都有官方支持的时间节点。ROS时钟--支持时间倒计时小工具效果如下:如果要部署机器人操作系统,R…...
华为OD机试真题2022(JAVA)
华为机试题库已换 →→→ 华为OD机试2023(JAVA) 以下题目为旧版题库,供大家课外消遣 基础题: 序号题目分值1查找众数及中位数1002出错的或电路1003连续字母长度1004分班1005计算面积1006最远足迹1007判断一组不等式是否满足约束…...
【3】MyBatis+Spring+SpringMVC+SSM整合一套通关
三、SpringMVC 1、SpringMVC简介 1.1、什么是MVC MVC是一种软件架构的思想,将软件按照模型、视图、控制器来划分 M:Model,模型层,指工程中的JavaBean,作用是处理数据 JavaBean分为两类: 一类称为实体…...
20道前端高频面试题(附答案)
ES6新特性 1.ES6引入来严格模式变量必须声明后在使用函数的参数不能有同名属性, 否则报错不能使用with语句 (说实话我基本没用过)不能对只读属性赋值, 否则报错不能使用前缀0表示八进制数,否则报错 (说实话我基本没用过)不能删除不可删除的数据, 否则报错不能删除变量delete p…...
android EditText设置后缀
有两种实现方案。 方案一:是自己写一个TextWatcher。 方案二:是重写TextView的getOffsetForPosition方法,返回一个计算好的offset。 我在工作时,使用的是方案一。在离职之后,我还是对这个问题耿耿于怀,所以…...
prometheus+cadvisor监控docker
官方解释 cAdvisor(ContainerAdvisor)为容器用户提供了对其运行容器的资源使用和性能特性的了解。它是一个正在运行的守护程序,用于收集、聚合、处理和导出有关正在运行的容器的信息。具体来说,它为每个容器保存资源隔离参数、历史…...
正演(1): 二维声波正演模拟程序(中心差分)Python实现
目录 1、原理: 1)二维声波波动方程: 编辑 2)收敛条件(不是很明白) 3)雷克子波 4)二维空间衰减函数 5)边界吸收条件 (不是很明白。。) 2、编程实现 1)参数设置&…...
珠海数据智能监控器+SaaS平台 轻松实现SMT生产管控
数据智能监控器 兼容市面上99%的SMT设备 直接读取设备生产数据与状态,如:计划产出、实际产出、累计产出、停机、节拍、线利用率、直通率、停产时间、工单状态、OEE…… 产品功能价值 ◎ OEE不达标报警,一手掌握生产效能 ◎ 首检/巡检/成…...
习题22对前面21节的归纳总结
笨方法学python --习题22 Vi---Rum 于 2021-01-12 14:16:10 发布 python 习题22 这节内容主要是归纳总结 ex1.py 第一次学习 1.print:打印 2.# :是注释的意思,井号右边的内容不再执行 3.end"":,在句子结尾加上这个就不会再换行…...
使用Vite快速构建前端React项目
一、Vite简介 Vite是一种面向现代浏览器的一个更轻、更快的前端构建工具,能够显著提升前端开发体验。除了Vite外,前端著名的构建工具还有Webpack和Gulp。目前,Vite已经发布了Vite3,Vite全新的插件架构、丝滑的开发体验,可以和Vue3完美结合。 相比Webpack和Gulp等构建工具…...
人工智能高等数学--人工智能需要的数学知识_微积分_线性代数_概率论_最优化---人工智能工作笔记0024
然后我们看一下人工智能中需要的数学知识 数学知识是重要的,对于理解人工智能底层原理来说很重要,但是工作中 工作中一般都不会涉及的自己写算法之类的,只是面试,或者理解底层原理的时候需要 然后看一下人工智能需要哪些数学知识 这里需要微积分 线性代数 概率论 最优化的知识…...
阿里大数据之路总结
一、数据采集 二、数据同步 2.1、数据同步方式: 数据同步的三种方式:直连方式、数据文件同步、数据库日志解析方式 关系型数据库的结构化数据:MYSQL、Oracle、DB2、SQL Server非关系型数据库的非结构化数据(数据库表形式存储&am…...
ABAP中Literals的用法(untyped literal vs. typed literal)
1. 什么是Literals ? Literals的字面意思即“文字”。其实,Literals就是在ABAP代码中直接指定的一个字符串,但注意哦,这个字符串并不意味着其类型一定是string哦。 要弄清这个概念,就要清楚ABAP对于Literals 的定义和处理方式。…...
tensorflow1.14.0安装教程
1首先电脑安装好Anaconda3(Anaconda介绍、安装及使用教程 - 知乎 (zhihu.com),) 蟒蛇 |全球最受欢迎的数据科学平台 (anaconda.com) 2打开Anaconda Prompt(本人更新win11后,主菜单不再显示,那么我们可以打…...
C++赋值运算符重载
赋值运算符重载 目录赋值运算符重载示例1:示例2:示例3:示例4:很巧妙的是,在编写这篇文章时(2023年2月27日),再加100天就是6月7日,恰好是今年高考的百日誓师! …...
网络性能总不好?专家帮你来“看看”— CANN 6.0 黑科技 | 网络调优专家AOE,性能效率双提升
随着深度学习模型复杂度和数据集规模的增大,计算效率的提升成为不可忽视的问题。然而,算法网络的多样性、输入数据的不确定性以及硬件之间的差异性,使得网络调优耗费巨大成本,即使是经验丰富的专家,也需要耗费数天的时…...
Qss自定义属性
QSS自定义属性 更多精彩内容👉个人内容分类汇总 👈👉QSS样式学习 👈文章目录QSS自定义属性[toc]前言一、实现效果二、使用方式1.QSS设置Q_PROPERTY属性样式2.QSS设置动态属性样式3.qproperty-<属性名称>语法14.qproperty-&…...
连接金蝶云星空,数据交互轻松搞定!丨三叠云
金蝶云星空 路径 拓展 >> 插件 功能简介 新增插件「金蝶云星空」。 用户可通过配置「金蝶云星空」插件,就可以实时获取「金蝶云星空」的数据,同时支持回填数据至金蝶系统内。 地图视图 路径 表单 >> 表单设计 功能简介 新增「地图视…...
JSX是什么,React为什么使用JSX,babel怎么转译JSX的
JSX是什么,React为什么使用JSX,babel怎么转译JSX的 在前端的框架中有两种“描述UI”的方案,一种是JSX语法,一种是模板语言。 其中React就是选择的JSX,Vue就是选择的模板语言。 JSX其实就是一个语法糖,在…...
从工地转行软件测试,拿下13k+年终奖是种什么体验?
最近,一则名为《我:毕业五年,存款5000。她:中传硕士,火锅店保洁》的视频走红网络,两位名校毕业生看似高开低走的就业经历,引起了很多人的共鸣。她们所传达的并不是所谓的躺平、摆烂,而是希望更多…...
前端面试题 —— 计算机网络(二)
目录 一、POST和PUT请求的区别 二、GET方法URL长度限制的原因 三、页面有多张图片,HTTP是怎样的加载表现? 四、HTTP2的头部压缩算法是怎样的? 五、说一下HTTP 3.0 六、HTTP协议的性能怎么样? 七、数字证书是什么?…...
山东大学机器学习期末2022
接力:山东大学机器学习期末2021 本来是不想写的,因为不想回忆起考试时啥也不会的伤痛,没想到最后给分老师海底捞,心情好了一些,还是一块写完 备考建议:多看ppt,多看ppt,多看ppt 山东…...
FEBC2022|打造VR内容生态闭环 佳创视讯持续加码轻量化内容建设
2月24日,由陀螺科技主办的未来商业生态链接大会作为 2023 癸卯兔年开年率先召开的行业重要影响力盛会在深圳成功召开。今年大会云集了科技、软件、游戏、XR等元宇宙领域的世界500强、上市公司及行业独角兽企业,围绕游戏、元宇宙、XR、数字营销等多项热门…...
Redis常见的数据类型命令
文章目录Redis 常见的数据类型及命令一、常见的NoSQL二、Redis 简介三、key 键的一些操作命令四、Redis的五种基本数据结构1、String(字符串)介绍常用命令1.1 set/get1.2 append1.3 strlen1.4 setex1.5 mset/mget1.6 setrange/getrange1.7 setnx1.8 incr…...
Python3+Selenium3自动化测试-(准备)
最近在学习selenium自动化测试相关的内容,所以将实际准备情况做一记录, # 系统:win10(64位) # 浏览器:Chrome(67.0)、Firefox(61.0)、IE # python版本:3.6.5 # Selenium:3.13.0Selenium简介 Selenium是一…...
四川杰新建设工程网站/阳城seo排名
https://blog.csdn.net/haoaiqian/article/details/78284337 开发时,对于本地的项目中修改不做保存操作(或代码改崩),可以用到Git pull的强制覆盖,具体代码如下: git fetch --all git reset --hard origi…...
3d标签 wordpress/杭州网络
配置环境:.Net Framework 1.1,Imai8.02,w3Jmail4.3 实现过程: 不同于在Asp中使用Jmail,直接使用 Server.CreateObject("Jmail.Message")就可以了。在.Net环境中,需要进行设置。 1.安装jmail4.3 2.找到jmail.dll&#x…...
网页微信传输助手/上海有什么seo公司
sql 数据库附加失败 提示823 824 错误修复 SQL Server 对数据库损坏的错误类型做了细化,在此对几个典型的错误作一下介绍。 错误信息是:“在文件 %ls中、偏移量为 %#016I64x 的位置执行 %S_MSG 期间,操作系统已经向 SQL Server 返回了错误 %l…...
专注苏州网站建设/重庆人力资源和社会保障网官网
Afinal是一个orm、ioc框架,遵循约定大于配置原则,无需任何配置即可完成所有工作,但也可以通过配置达到个人的个性化需求。Afinal提倡代码快速简洁,尽量一行代码完成的事情不会用两行。Afinal里面目前包含了四大组件:Fi…...
网站做两个月百度没有录取/辽宁网站建设
group by,order by单个字段很好理解. 但是很多时候,需要group by,order by多个字段. 理解sql背后怎么做很重要. 比如group by a1, a2 order by a2,a3表示先按a1分组返回结果集,再这个结果集上再对a2分组返回结果集, 然后针对返回的结果集再对a1排序返回结果集后,再对a2排序. 比…...
延安网站建设公司电话/现在推广引流什么平台比较火
android-ui该项目已经停止维护,请移步到这里帮助快速开发android,项目集成6.0权限申请,常用dialog,本地图片选择等...项目部分引用第三方开源库,感谢开源项目正在不断有空更新, 别急,先star吧..…...