当前位置: 首页 > news >正文

Meta-Transformer 多模态学习的统一框架

Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练数据。该框架由统一的数据标记器、模式共享编码器和用于各种下游任务的任务头组成。它是在不同模式下使用未配对数据执行统一学习的第一次努力。实验表明,它可以处理从基础感知到实际应用和数据挖掘的广泛任务。

Meta-Transformer

数据到序列的令牌标记

研究人员提出了一种元标记化方案,将来自不同模式(如文本、图像、点云和音频)的数据转换为共享空间中的标记嵌入。

对于自然语言,他们使用了带有30000个标记词汇表的WordPiece 嵌入,它将单词分割成子单词,并将每个输入文本转换成一组标记嵌入。

对于图像,他们将图像重塑为一系列平坦的2D补丁,然后利用投影层投影嵌入维度。该操作也可用于红外图像,而线性投影用于高光谱图像。他们用3D卷积代替2D卷积层用于视频识别。

对于点云,采用最远点采样(FPS)操作将原始点云从原始输入空间转换为标记嵌入空间,以固定采样比对原始点云的代表性骨架进行采样。然后,使用k -最近邻(KNN)对相邻点进行分组,并构建邻接矩阵来捕获3D物体和场景的结构信息。

对于音频频谱图,使用Mel滤波器组和Hamming窗口对音频波形进行预处理,以将波分割成间隔。然后将频谱图从时间和频率维度分割成补丁,然后将其平面化为标记序列。

统一的编码器

在将原始输入从各种模式转换为标记(令牌)嵌入后,研究人员使用了一个统一的Transformer 编码器,其中包含了固定的参数来编码这些令牌。基于ViT模型的编码器在LAION-2B数据集上进行对比学习预训练,提高编码器的通用标记编码能力。对于文本理解,他们使用来自CLIP的预训练文本标记器将句子转换为子词,然后转换为词嵌入。

论文中作者提到的“模态不可知学习”,一个可学习的标记(xCLS)被添加到标记嵌入序列的开始。该令牌的最终隐藏状态充当输入序列的摘要表示,通常用于识别任务。位置嵌入也会被添加到标记嵌入中。

Transformer 编码器由多个堆叠的多头自关注层和MLP块组成,对这些嵌入序列进行处理。作者指出,添加更复杂的2d感知位置嵌入并不能显著提高图像识别性能。

实验结果

Meta-Transformer模型在各种语言和图像理解任务中虽然并不总是优于其他先进的方法,但也表现出了很好的效果。

在GLUE基准测试的文本理解任务中,Meta-Transformer在情感、释义、复制、推理和回答任务方面得分相对较高。虽然它的表现不如BERT、RoBERTa和ChatGPT等模型,但它在理解自然语言方面表现出了新的希望,尤其是在微调之后。

在图像理解任务上,Meta-Transformer在几个方面优于Swin Transformer系列和interimage等模型。当与CLIP文本编码器相结合时,它在零样本分类方面提供了强有力的结果。它在目标检测和语义分割任务上也优于其他模型,显示了它在图像理解方面的熟练程度。

Meta-Transformer在处理红外和高光谱图像识别任务方面也被证明是有效的,分别在RegDB和Indian Pine数据集上进行了测试。尽管Meta-Transformer没有登顶排行榜,但其结果也很不错,展示了处理与红外图像和高光谱图像相关的挑战的潜力。

在x射线图像处理方面,Meta-Transformer取得了94.1%的性能,表明其在医学图像分析方面的实用性。

在点云理解任务中,Meta-Transformer在ModelNet-40、S3DIS和ShapeNetPart数据集上与其他模型相比,它在可训练参数较少的情况下获得了较高的准确率分数,强调了它在这一领域的效率。

在音频识别任务中,Meta-Transformer具有与AST和SSAST等现有音频Transformer模型竞争的优势,在调整参数时达到97.0%的高精度。尽管AST的性能很好,但像AST这样的模型具有更多可训练的参数。

在视频理解任务中,正如在UCF101数据集上测试的那样,Meta-Transformer在准确性方面并不优于其他最先进的方法。但是它的突出之处在于其明显较少的可训练参数,这表明了统一的多模式学习和较低的体系结构复杂性的潜在好处。

在时间序列预测任务中,Meta-Transformer在ETTh1、Traffic、Weather和Exchange数据集等基准测试上优于几种现有方法,同时只需要很少的可训练参数。

在表格数据理解任务中,Meta-Transformer在成人普查和银行营销数据集上表现出色。它在银行营销数据集上的表现优于其他模型,这表明它在理解复杂数据集方面具有潜力。

在PCQM4M-LSC数据集的图理解任务中,当前的Meta-Transformer架构在结构数据学习方面表现并不好,graphhormer模型的表现优于它,这方面还要改进。

在Ego4D数据集的分类任务中,Meta-Transformer的准确率达到73.9%。总的来说,这些发现突出了Meta-Transformer在不同领域的多功能性和有效性。

上面有几个结果都表明Meta-Transformer的参数少,模型效率更高,它的其中一个主要的限制是计算复杂度为O(n²x D)。

作者:Andrew Lukyanenko

最后论文地址和源代码:

https://avoid.overfit.cn/post/27688397b91a48f680d3e5e3ca9e9f86

相关文章:

Meta-Transformer 多模态学习的统一框架

Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间…...

tinkerCAD案例:24.Tinkercad 中的自定义字体

tinkerCAD案例:24.Tinkercad 中的自定义字体 原文 Tinkercad Projects Tinkercad has a fun shape in the Shape Generators section that allows you to upload your own font in SVG format and use it in your designs. I’ve used it for a variety of desi…...

list与流迭代器stream_iterator

运行代码: //list与流迭代器 #include"std_lib_facilities.h" //声明Item类 struct Item {string name;int iid;double value;Item():name(" "),iid(0),value(0.0){}Item(string ss,int ii,double vv):name(ss),iid(ii),value(vv){}friend ist…...

九耶:冯·诺伊曼体系

冯诺伊曼体系(Von Neumann architecture)是一种计算机体系结构,它由匈牙利数学家冯诺伊曼于1945年提出。冯诺伊曼体系是现代计算机体系结构的基础,几乎所有的通用计算机都采用了这种体系结构。 冯诺伊曼体系的核心思想是将计算机硬…...

探索UCI心脏病数据:利用R语言和h2o深度学习构建预测模型

一、引言 随着机器学习模型在实际应用中的广泛应用,人们对于模型的解释性和可理解性日益关注。可解释性机器学习是指能够清晰、透明地解释机器学习模型决策过程的一种方法和技术。在许多领域中,如医疗诊断、金融风险评估和自动驾驶等,解释模型…...

基于 moleculer 微服务架构的智能低代码PaaS 平台源码 可视化开发

低代码开发平台源码 低代码管理系统PaaS 平台 无需代码或通过少量代码就可以快速生成应用程序的开发平台。 本套低代码管理后台可以支持多种企业应用场景,包括但不限于CRM、ERP、OA、BI、IoT、大数据等。无论是传统企业还是新兴企业,都可以使用管理后台…...

xrdp登录显示白屏且红色叉

如上图所示,xrdp登录出现了红色叉加白屏,这是因为不正常关闭导致,解决方法其实挺简单的 #进入/usr/tmp cd /usr/tmp #删除对应用户的kdecache-** 文件(我这里使用的是kde桌面),例如删除ywj用户对应的文件 …...

Docker安装 Mysql 8.x 版本

文章目录 Docker安装 Mysql 8.0.22Mysql 创建账号并授权Mysql 数据迁移同版本数据迁移跨版本数据迁移 Mysql 5.x 版本与 Mysql 8.x版本是两个大版本,这里演示安装Mysql 8.x版本 Docker安装 Mysql 8.0.22 # 下载mysql $ docker pull mysql 默认安装最新…...

【数理知识】刚体 rigid body 及刚体的运动

文章目录 1 刚体2 刚体一般运动1 平移运动2 旋转运动 Ref 1 刚体 刚体是指在运动中和受力作用后,形状和大小不变,而且内部各点的相对位置不变的物体。绝对刚体实际上是不存在的,只是一种理想模型,因为任何物体在受力作用后&#…...

【UE5 多人联机教程】03-创建游戏

效果 步骤 打开“UMG_MainMenu”,增加创建房间按钮的点击事件 添加如下节点 其中,“FUNL Fast Create Widget”是插件自带的函数节点,内容如下: “创建会话”节点指游戏成功创建一个会话后,游戏的其他实例即可发现&am…...

【时间序列预测 】M4

【时间序列预测 】M4 论文题目:The M4 Competition: 100,000 time series and 61 forecasting methods 中文题目: 论文链接: 论文代码: 论文团队: 发表时间: DOI: 引用: 引用数: 摘要…...

SpringCloud微服务实战——搭建企业级开发框架(五十三):微信小程序授权登录增加多租户可配置界面

GitEgg框架集成weixin-java-miniapp工具包以实现微信小程序相关接口调用功能,weixin-java-miniapp底层支持多租户扩展。每个小程序都有唯一的appid,weixin-java-miniapp的多租户实现并不是以租户标识TenantId来区分的,而是在接口调用时&#…...

Stability AI推出Stable Diffusion XL 1.0,文本到图像模型

Stability AI宣布推出Stable Diffusion XL 1.0,这是一个文本到图像的模型,该公司将其描述为迄今为止“最先进的”版本。 Stability AI表示,SDXL 1.0能生成更加鲜明准确的色彩,在对比度、光线和阴影方面做了增强,可生成…...

B076-项目实战--宠物上下架 展示 领养 收购订单

目录 上下架功能提供后台宠物列表实现 前台展示前台宠物列表和详情展示店铺展示 领养分析前台后端PetControllerPetServiceImpl 订单需求分析可能产生订单的模块订单模块额外功能 订单设计表设计流程设计 集成基础代码收购订单创建订单前端后端 上下架功能提供 后台宠物列表实…...

【iOS】—— 持久化

文章目录 数据持久化的目的iOS中数据持久化方案数据持久化方式分类内存缓存磁盘缓存 沙盒机制获取应用程序的沙盒路径沙盒目录的获取方式 持久化数据存储方式XML属性列表Preferences偏好设置(UserDefaults)数据库存储什么是序列化和反序列化,…...

教程 - 在 Vue3+Ts 中引入 CesiumJS 的最佳实践@2023

1. 本篇适用范围与目的 1.1. 适用范围 严格使用 Vue3 TypeScript 的前端项目,包管理器默认使用 pnpm 构建工具使用 Vite4 使用原生 CesiumJS 依赖做应用开发 客户端渲染,因为我不太熟悉 Vue 的服务端渲染,有本篇的介绍后,熟悉…...

最优化方法

一. 图论 1.最小生成树 图的生成树是它的一颗含有其所有顶点的无环连通子图,一 幅加权图的最小生成树(MST)是它的一颗权值(树中的所有边的权值之和) 最小的生成树 • 适用场景:道路规划、通讯网络规划、管道铺设、电线布设等 题目数据 kruskal算法 稀疏图&#x…...

Mongodb 多文档聚合操作处理方法二(Map-reduce 函数)

聚合 聚合操作处理多个文档并返回计算结果。您可以使用聚合操作来: 将多个文档中的值分组在一起。 对分组数据执行操作以返回单个结果。 分析数据随时间的变化。 要执行聚合操作,您可以使用: 聚合管道 单一目的聚合方法 Map-reduce 函…...

ant design vue j-modal 修改高度

问题描述 今天在项目中遇到关于j-modal组件修改弹窗大小问题,我尝试使用直接使用:height"300",没用效果,弹窗大小依然和没改之前一样,后来找到了这种方式可以去修改j-modal弹窗大小,下面来看下代码实现&…...

spring学习笔记七

一、自动装配 1.1、BookDao接口和实现类 public interface BookDao {void save(); } public class BookDaoImpl implements BookDao {public void save(){System.out.println("book dao save......");} } 1.2、BookService接口和实现类 public interface BookSer…...

hw技战法整理参考

目录 IP溯源反制 账户安全策略及预警 蜜罐部署联动方案...

uniapp 全局数据(globalData)的设置,获取,更改

globalData,这是一种简单的全局变量机制。这套机制在uni-app里也可以使用,并且全端通用 因为uniapp基本上都是将页面,或者页面中相同的部分,进行组件化,所以会存在父,子,(子&#xf…...

Profinet转EtherNet/IP网关连接AB PLC的应用案例

西门子S7-1500 PLC(profinet)与AB PLC以太网通讯(EtherNet/IP)。本文主要介绍捷米特JM-EIP-PN的Profinet转EtherNet/IP网关,连接西门子S7-1500 PLC与AB PLC 通讯的配置过程,供大家参考。 1, 新建工程&…...

Python组合模式介绍、使用方法

一、Python组合模式介绍 概念: 组合模式(Composite Pattern)是一种结构型设计模式,它通过将对象组合成树状结构来表示“整体/部分”层次结构,让客户端可以以相同的方式处理单个对象和组合对象。 功能: 统一对待组合对象和叶子对…...

生成模型和判别模型工作原理介绍

您解决的大多数机器学习和深度学习问题都是从生成模型和判别模型中概念化的。在机器学习中,人们可以清楚地区分两种建模类型: 将图像分类为狗或猫属于判别性建模生成逼真的狗或猫图像是一个生成建模问题神经网络被采用得越多,生成域和判别域就增长得越多。要理解基于这些模型…...

shardingsphere读写分离配置

注: 如果是升级之前的单库单表,要将之前的 数据库接池 druid-spring-boot-starter 注释掉,换成 druid,否则无法连接数据库。 原因: 因为数据连接池的starter(比如druid)可能会先加载并且其创…...

登录报错 “msg“:“Request method ‘GET‘ not supported“,“code“:500

1. 登录失败 2. 排查原因, 把 PostMapping请求注释掉, 或改成GetMapping请求就不会报错 3. 找到SecurityConfig.java , 新增 .antMatchers("/**/**").permitAll() //匹配允许所有路径 4. 登录成功...

Python 日期和时间

Python 日期和时间 Python 程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能。 Python 提供了一个 time 和 calendar 模块可以用于格式化日期和时间。 时间间隔是以秒为单位的浮点小数。 每个时间戳都以自从1970年1月1日午夜(历元&…...

pytorch的发展历史,与其他框架的联系

我一直是这样以为的:pytorch的底层实现是c(这一点没有问题,见下边的pytorch结构图),然后这个部分顺理成章的被命名为torch,并提供c接口,我们在python中常用的是带有python接口的,所以被称为pytorch。昨天无意中看到Torch是由lua语言写的&…...

Kibana-elastic--Elastic Stack--ELK Stack

Kibana 是什么? | Elastic 将数据转变为结果、响应和解决方案 使用 Kibana 针对大规模数据快速运行数据分析,以实现可观测性、安全和搜索。对来自任何来源的任何数据进行全面透彻的分析,从威胁情报到搜索分析,从日志到应用程序监测…...

婚庆公司怎么找/如何做网站seo排名优化

1.需要的软件 1.1 VS2012 下载地址 百度吧! 1.2 cocos2d-x-3.0rc0.zip下载地址 1.3 CocoStudio_V1.3.0.0.exe 下载地址 1.4 NDK android-ndk-r9d-windows-x86.zip 下载地址 1.5 SDK adt-bundle-windows-x86-20131030.zip 下载地址 1.6 Visual Assist X 10.8.2…...

做网站图片路径做缓存吗/今日热点新闻视频

上海最近搞活动调休,要搞深度学习,win上还是不方便,准备弄个ubuntu。于是有以下回忆文字。在机器上装了个双系统。花了两天。再也不想玩了。准备用ubuntu来做深度学习的。本文写于2019年11月4日。机器是神舟Z7-KP7D2,i7-7700HQGTX…...

网站建设上的新闻/中山seo推广优化

1.修改网卡,修改配置文件/etc/network/interfaces之后,重启network出现错误:Unit network.service failed to load。 不用service network restart 用service network-manager restart重启,不会报错。如果没有用,只…...

上海的网站公安备案查询系统/东莞seo公司

from pathlib import Path FILE Path(__file__).absolute() sys.path.append(FILE.parents[0].as_posix())...

传奇广告网站怎么做/全网整合营销推广方案

翻译原文链接 转帖/转载请注明出处 原文链接medium.com 发表于2017/08/30 我在防垃圾邮件,防病毒和防恶意软件领域已经工作了15年,前后在好几个公司任职。我知道这些系统最后都会因为要处理海量的数据而变得非常复杂。 我现在是smsjunk.com的…...

省政府网站集约化建设/站长工具查询域名

先这里把unassigned_shards的节点手动删除掉,然后重新配置你的集群 这是应急之策,暂时留用,之后理解后重新解决...