当前位置: 首页 > news >正文

【论文笔记】A Token-level Contrastive Framework for Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: A Token-level Contrastive Framework for Sign Language Translation
作者: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi
发表: ICASSP 2023
arXiv: https://arxiv.org/abs/2204.04916

基本信息

摘要

手语翻译(SLT)是一种有望弥合聋人与听力人士之间沟通鸿沟的技术。

最近,研究人员采用了需要大规模语料库进行训练的神经机器翻译(NMT)方法来实现SLT。

然而,公开可用的SLT语料库非常有限,这导致了token表示的崩溃和生成token的不准确。

为了缓解这一问题,我们提出了ConSLT,这是一种新的针对手语翻译的token级对比学习框架,通过将token级对比学习融入SLT解码过程来学习有效的token表示。

具体来说,ConSLT在解码过程中将每个token及其由不同dropout掩码生成的对应token视为正对,然后随机从不在当前句子中的词汇中抽取K个token来构建负例。

我们在两个基准(PHOENIX14T和CSL-Daily)上进行了全面的实验,包括端到端和级联设置。

实验结果表明,ConSLT比强大的基线实现了更好的翻译质量。

Statistics of SLT and NMT dataset. The size of SLT dataset PHOENIX14T is several orders of magnitude smaller than NMT dataset WMT18 En-De

方法

Visualization of token embeddings

Illustration of the ConSLT

对于每个token,我们通过不同的dropout噪声构建其正例,并从候选token集 C \mathcal{C} C 中随机采样 K K K 个token作为负例,其中 C ⊂ V ∖ S \mathcal{C} \subset \mathcal{V} \setminus \mathcal{S} CVS 表示在词汇表 V \mathcal{V} V 中但不在当前句子 S \mathcal{S} S 中的token。

实验

主实验

Results on PHOENIX14T

Results on CSL-Daily

消融实验

Ablation study on the PHOENIX14T test set

w/o CL 表示没有对比学习方法,S-CL 表示句子级对比学习方法,T-CL 表示token级对比学习方法。cos 表示使用余弦相似度作为距离度量,KL 表示使用KL散度作为距离度量。

BLEU scores with different sampling strategies of negative samples on the PHOENIX14T test set

总结

在这篇论文中,我们从表示学习的角度提供了一种缓解SLT低资源问题的新的见解。

我们引入了ConSLT,这是一种针对SLT的基于token的对比学习框架,旨在通过将当前句子之外的词汇中的token推远来学习有效的token表示。

值得一提的是,ConSLT可以应用于不同的模型结构。

我们还探讨了各种对比策略的影响,并提供了细粒度分析来解释我们的方法是如何工作的。

实验结果表明,对比学习可以显著提高SLT的翻译质量。

在未来,我们将进一步研究手语视频和口语文本之间的跨模态关系。

相关文章:

【论文笔记】A Token-level Contrastive Framework for Sign Language Translation

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: A Token-level Contrastiv…...

C#窗体简单登录

创建一个Windows登录程序,创建两个窗体,一个用来登录,一个为欢迎窗体,要求输入用户名和密码(以个人的姓名和学号分别作为用户名和密码),点击【登录】按钮登录,登录成功后显示欢迎窗体…...

基于ZYNQ-7000系列的FPGA学习笔记3——开发环境搭建点亮一个LED

基于ZYNQ-7000系列的FPGA学习笔记3——开发环境搭建&点亮一个LED 1. 搭建开发环境2. FPGA的开发流程3. 点亮一个LED3.1 实验要求3.2 新建工程3.3 原理图3.4 绘制系统框图3.5 绘制波形图3.6 编写RTL代码3.7 软件仿真3.8 Vivado软件创建工程3.9 分析与综合3.10 设计实现 在上…...

队列-链式描述(C++)

定义 使用链表描述队列时,通常包含以下几个基本要素: 队头指针(Front Pointer):指向队列中第一个(即最早进入队列的)元素的节点。队尾指针(Rear Pointer):指…...

Kali Linux使用Netdiscover工具的详细教程

Kali Linux使用Netdiscover工具的详细教程 引言 在网络安全和渗透测试的过程中,网络发现是一个至关重要的步骤。Netdiscover是Kali Linux中一个非常实用的网络发现工具,它可以帮助用户快速识别局域网中的活动设备。本文将详细介绍如何使用Netdiscover工…...

arkTS:使用ArkUI实现用户信息的持久化管理与自动填充(PersistentStorage)

arkUI:使用ArkUI实现用户信息的持久化管理与自动填充(PersistentStorage) 1 主要内容说明2 例子2.1 登录页2.1.1登陆页的相关说明2.1.1.1 持久化存储的初始化2.1.1.2 输入框2.1.1.3 记住密码选项2.1.1.4 登录按钮的逻辑2.1.1.5 注册跳转 2.1.…...

IntelliJ+SpringBoot项目实战(二十)--基于SpringSecurity实现Oauth2服务端和客户端

在前面的帖子中介绍了SpringSecurityJWT实现了认证和授权的功能。因为基于Oauth2的统一认证在项目需求中越来越多,所以有必要将OAuth2的解决方案也整合进来,这样我们的产品既可以作为一个业务系统,也可以作为一个独立的统一认证服务器。下面详…...

如何实现剪裁功能

文章目录 1 概念介绍2 使用方法2.1 ClipOval2.2 ClipRRect3 示例代码我们在上一章回中介绍了AspectRatio Widget相关的内容,本章回中将介绍剪裁类组件(Clip).闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 我们在这里说的剪裁类组件主要是指对子组件进行剪裁操作,常用的…...

LeetCode 动态规划 爬楼梯

爬楼梯 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1 阶 1 阶 2 阶 示例 2&#xff…...

Java 工厂模式:深度解析与应用指南

在 Java 编程的广袤天地里,设计模式宛如璀璨星辰,照亮了开发者构建高效、灵活且可维护软件系统的道路。其中,工厂模式作为创建型设计模式的关键成员,在对象创建环节扮演着举足轻重的角色,极大地增强了代码的适应性与扩…...

HTML5系列(5)-- SVG 集成详解

前端技术探索系列:HTML5 SVG 集成详解 🎨 开篇寄语 👋 前端开发者们, 在前五篇文章中,我们探讨了 HTML5 的多个特性。今天,让我们深入了解 SVG 的魅力,看看如何创建可缩放的矢量图形。 一、…...

深度学习常见数据集处理方法

1、数据集格式转换&#xff08;json转txt&#xff09; import json import os 任务&#xff1a;实例分割&#xff0c;labelme的json文件, 转txt文件 Ultralytics YOLO format <class-index> <x1> <y1> <x2> <y2> ... <xn> <yn> # 类…...

1180 - 【入门】数字出现次数

题目描述 有50个数&#xff08;0-19&#xff09;&#xff0c;求这50个数中相同数字出现的最多次数为几次&#xff1f; 输入 50个数字 输出 1个数字&#xff08;即相同数字出现的最多次数&#xff09; 样例 输入 复制 1 10 2 0 15 8 12 7 0 3 15 0 15 18 16 7 17 16 9 …...

C++20: 像Python一样split字符串

概要 Python 的字符串天生支持 split( ) 操作&#xff0c;支持单个字符或字符串作为分隔符。 C 在这方面显得很笨拙&#xff0c;但是在 C20 下经过一番尝试&#xff0c;还是能够提供类似的简洁调用。 Python 代码 s 0,11,336,23,370nums s.split(,) for n in nums:print(n…...

Unity3D UI 嵌套滚动视图

Unity3D 解决 UI 嵌套滚动视图滑动问题。 嵌套滚动视图 滑动问题 在游戏开发中&#xff0c;我们常常会遇到一种情况&#xff0c;在一个滚动视图列表中&#xff0c;每个 item 还包含了一个内嵌的滚动视图。 这样&#xff0c;当我们在滑动外层的滚动视图时&#xff0c;如果点…...

你还没有将 Siri 接入GPT对话功能吗?

由于各种原因&#xff0c;国内ios用户目前无缘自带 AI 功能&#xff0c;但是这并不代表国内 ios 无法接入 AI 功能&#xff0c;接下来手把手带你为iPhone siri 接入 gpt 对话功能。 siri 接入 chatGPT 暂时还无法下载 ChatGPT app&#xff0c;或者没有账号的读者可以直接跳到…...

_C#_串口助手_字符串拼接缺失问题(未知原理)

最近使用WPF开发串口助手时&#xff0c;遇到一个很奇怪的问题&#xff0c;无论是主线程、异步还是多线程&#xff0c;当串口接收速度达到0.016s一次以上&#xff0c;就会发生字符串缺失问题并且很卡。而0.016s就一切如常&#xff0c;仿佛0.015s与0.016s是天堑之隔。 同一份代码…...

浅析大数据时代下的网络安全

一、大数据时代下网络安全的现状 在全球化进程不断深入发展的情况下&#xff0c;互联网行业发展速度也更加迅猛&#xff0c;人们对网络信息的需求量不断增加&#xff0c;所以目前已经进入了大数据时代。 随着计算机技术的不断发展&#xff0c;我国互联网网络规模、网民数量、…...

Mysql数据库基础篇笔记

目录 sql语句 DDL——数据库定义语言&#xff08;定义库&#xff0c;表&#xff0c;字段&#xff09; 数据库操作&#xff1a; 表操作&#xff1a; DML 增删改语句 DQL 语法编写顺序&#xff1a; 条件查询 DCL 用户管理&#xff1a; 权限管理&#xff1a; 函数 常见字符串内置函…...

rabbitmq原理及命令

目录 一、RabbitMQ原理1、交换机&#xff08;Exchange&#xff09;fanoutdirecttopicheaders&#xff08;很少用到&#xff09; 2、队列Queue3、Virtual Hosts4、基础对象 二、RabbitMQ的一些基本操作:1、用户管理2、用户角色3、vhost4、开启web管理接口5、批量删除队列 一、Ra…...

机械原理课程设计 洗瓶机机构设计(设计说明书+3张CAD图纸+连杆机构设计软件)

洗瓶机作为工业清洗领域的核心设备&#xff0c;其机构设计的合理性直接影响清洗效率与质量。机械原理课程设计中的洗瓶机机构设计&#xff0c;聚焦于通过连杆机构实现瓶体的连续输送、定位与翻转&#xff0c;确保清洗液均匀覆盖瓶内壁。设计核心在于构建多自由度运动系统&#…...

yz-bijini-cosplay真实案例:COSER试装前预览、服装打样视觉参考图

yz-bijini-cosplay真实案例&#xff1a;COSER试装前预览、服装打样视觉参考图 1. 项目概述 yz-bijini-cosplay是一个专为RTX 4090显卡优化的Cosplay风格文生图系统&#xff0c;基于通义千问Z-Image底座和专属LoRA权重开发。这个系统能够帮助COSER在试装前预览效果&#xff0c…...

文墨共鸣大模型长期记忆(LSTM)优化对话体验:实现多轮深度交流

文墨共鸣大模型长期记忆&#xff08;LSTM&#xff09;优化对话体验&#xff1a;实现多轮深度交流 你有没有遇到过这样的情况&#xff1a;和一个智能助手聊天&#xff0c;聊到第三四轮的时候&#xff0c;它好像就忘了你最开始说了什么&#xff0c;回答开始跑偏&#xff0c;或者…...

雪女-斗罗大陆-造相Z-Turbo系统管理:Ubuntu服务器运维与模型服务监控

雪女-斗罗大陆-造相Z-Turbo系统管理&#xff1a;Ubuntu服务器运维与模型服务监控 想让你的“雪女”模型在Ubuntu服务器上像真正的封号斗罗一样&#xff0c;拥有稳定、可靠、持久的战斗力吗&#xff1f;对于任何投入生产环境的AI服务来说&#xff0c;部署成功只是第一步&#x…...

设计师不用写代码了?实测TRAE SOLO Builder如何将Figma稿秒变可交互网页

设计师如何用TRAE SOLO Builder实现零代码网页开发 在数字产品设计领域&#xff0c;设计师与开发者之间的协作断层长期存在。设计精美的Figma稿转化为实际网页时&#xff0c;往往面临还原度不足、交互细节丢失等问题。TRAE SOLO Builder的出现&#xff0c;正在重新定义设计到开…...

Transformer解码器实战:用PyTorch手写Masked Self-Attention(附避坑指南)

Transformer解码器实战&#xff1a;用PyTorch手写Masked Self-Attention&#xff08;附避坑指南&#xff09; 1. 为什么需要Masked Self-Attention 在文本生成任务中&#xff0c;模型需要遵循自回归特性——即生成当前词时只能依赖已生成的词。想象你正在玩文字接龙游戏&#x…...

从设计稿到上架:一份给独立开发者的Android应用图标全流程制作指南

从设计稿到上架&#xff1a;独立开发者的Android应用图标全流程实战 在移动应用生态中&#xff0c;图标是用户对产品的第一印象。Google Play商店数据显示&#xff0c;专业设计的应用图标能提升40%以上的点击率。但对于独立开发者和小团队而言&#xff0c;如何在有限资源下打造…...

掌握BepInEx:Unity游戏扩展全家桶的零门槛实践指南

掌握BepInEx&#xff1a;Unity游戏扩展全家桶的零门槛实践指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx &#x1f50d; 游戏模组管理的行业痛点与解决方案 在Unity游戏生态…...

【HFP】规范精讲[15]: HFP蓝牙特有AT命令:免提场景专属功能的控制语言

在蓝牙HFP的命令体系中&#xff0c;除了复用自传统移动通信标准的AT命令&#xff0c;还有一类专门为蓝牙免提场景设计的专属AT命令。这些命令就像为蓝牙免提设备量身定制的方言&#xff0c;针对无线音频传输、设备间状态同步、蓝牙特有功能等场景进行了精准优化&#xff0c;是实…...

(三)谷歌浏览器结合Selenium IDE实现自动化脚本录制与Python导出

1. 为什么你需要Selenium IDE脚本录制工具 最近有个测试同事跟我吐槽&#xff0c;说他每天要花3小时重复点击同一个电商网站&#xff0c;就为了检查商品详情页的展示逻辑。我听完直接给他安利了Selenium IDE——这个藏在谷歌浏览器里的小工具&#xff0c;5分钟就能搞定他半天的…...