Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。
2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实现了68%的相对改进。
一、研究背景:
在电影、电视和其他媒体制作中,多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策,但这些框架在训练领域之外往往表现不佳,而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。
目前遇到困难和挑战:
1、多摄像机视角推荐模型在未见过的领域中泛化能力差,导致准确率显著下降。
2、现有的多摄像机编辑数据集(如TVMCE)仅限于特定场景和类型,无法覆盖更广泛的领域。
3、收集相同领域的数据需要多个同步摄像机捕捉同一事件,且需要专业的电影制作专家进行标记,这在实际操作中非常困难。
数据集地址:多摄像头视图推荐数据集|模型泛化数据集
二、让我们一起来看一下Pseudo Multi-Camera Editing数据集:
Pseudo Multi-Camera Editing Dataset:通过将常规视频转换为伪标记的多摄像机视角推荐数据集,以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换,通过聚类镜头来模拟不同的摄像机,并选择每个“伪”摄像机中最相似的镜头作为候选镜头,与真实镜头一起生成伪标记数据。
数据集构建:
包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征,并计算镜头间的视觉相似度。
数据集特点:
1、利用常规视频生成伪标记数据,无需专业标记。
2、通过聚类模拟多摄像机系统,提高模型在未知领域的泛化能力。
3、实现了68%的相对准确率提升。
研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征,模型可以学习在不同场景下选择合适的摄像机视角。
基准测试 :
在TVMCE数据集上,与现有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域内准确率上提高了11%。在未知领域(如情景喜剧场景)中,使用伪数据集训练的模型表现出显著更好的泛化能力。
(a) 在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳,准确性显着下降。(b) 我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性
模型架构。(a) 过去的编码器将所有过去的特征编码为单个特征向量。然后,应用对比损失以最大化过去特征和真实特征之间的余弦相似性。(b) 特征提取器通过向图像特征添加位置嵌入来对帧进行编码。
伪数据集生成管道。(a) 在输入视频中检测到镜头,以及 (b) 分组。同一群集中的快照被视为来自同一“伪”摄像机。(c) 选择镜头作为锚点。后续镜头是地面实况,而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。
与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID:域内,OOD:域外。
视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。
视频场景和类型(情景喜剧)的影响。更显著的域差异(视频场景 + 视频类型)会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型,从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。
三、让我们一起展望Pseudo Multi-Camera Editing数据集应用
比如,我是一名电影剪辑师。
我日常的工作:坐在剪辑室里,我得盯着屏幕,看那些复杂的实验室场景,或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度,有的可能是全景,有的可能是特写,还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头,才能让观众感受到那种紧张刺激的气氛,同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题,你得把所有的元素都考虑到,还得保证最后的结果让观众满意。
现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统,我的眼睛得到更好的休息。
比如,我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出,哪个镜头最能展现太空船的动态,哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我,现在可以切换到一个全景镜头,让观众感受到太空船在黑洞面前的渺小;然后,再切换到宇航员的特写,因为他的眼神中透露出坚定和决心。
这个系统就像是我的智能剪辑助手,它通过学习大量的视频资料,已经知道在这种科技电影中,哪些镜头最能打动人心。比如,在剪辑一个科学家在实验室里做实验的场景时,它会建议我切换到一个特写镜头,聚焦在科学家手中的那个即将引爆的装置上,因为那个装置的每一个细节都可能关系到整个实验的成败。
而且,这个系统还能帮我处理那些特别复杂的特效场景。比如,太空船在太空中爆炸的场景,它能够分析出哪个镜头最能捕捉到爆炸的震撼效果,哪个切换最能带动观众的情绪。这样,我就可以把更多的精力放在故事的叙述上,而不是纠结于每个镜头的选择。
有了Pseudo Multi-Camera Editing Dataset数据集训练的系统,让我在剪辑科技电影时,能够更加专注于创意和故事的讲述,而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间,让我的工作变得更加高效和有趣。
来吧,让我们走进多摄像头视图推荐数据集|模型泛化数据集
相关文章:
Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。
2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体…...
认识一下 Mochi-1--最新的免费开源人工智能视频模型
Genmo 是一家专注于视频生成的人工智能公司,该公司宣布发布 Mochi 1 的研究预览版。Mochi 1 是一种新的开源模型,可根据文本提示生成高质量视频,其性能可与 Runway 的 Gen-3 Alpha、Luma AI 的 Dream Machine、Kuaishou 的 Kling、Minimax 的…...
Spring 的事务传播机制
Spring 的事务传播机制定义了一个事务方法在遇到已经存在的事务时如何处理。事务传播属性(Propagation)提供了七种机制,以适应不同的业务需求和事务边界管理。 1. Spring 的事务传播机制的类型 (1)REQUIREDÿ…...
线性代数(1)——线性方程组的几何意义
线性代数的基本问题是求解个未知数的个线性方程; 例如:(方程1)。 在线性代数的第一讲中,我们从Row Picture、Column Picture、Matrix Picture三个角度来看这个问题。 上面的系统是二维的。通过添加第三个变量&#…...
写给自己的一些心得体会
为什么是CSDN??? 最近跑实验跑得绝望,感觉自己兜兜转转走了太多太多的弯路,我不知道这样的弯路什么时候是个尽头,就像在USJ排队,看似好像要到入口了,实则一转头还是无尽绵延的队伍。走了这么多弯路,总要…...
论文阅读(二十九):Multi-scale Interactive Network for Salient Object Detection
文章目录 Abstract1.Introduction2.Scale VariationProposed Method3.1Network Overview3.2Aggregate Interaction Module3.3 Self-Interaction Module3.4Consistency-Enhanced Loss 4.Experiments4.1Implementation Details4.2 Comparison with State-of-the-arts4.3Ablation …...
常见存储器及其特点
: 一、只读存储器(ROM)及其类型 1. ROM 特点:存储的数据固定不变,只能读出不能写入,且断电后数据不丢失。应用:通常用于存储系统程序,如BIOS等。 2. PROM(可编程只读…...
《向量数据库指南》——text-embedding-3-large与Mlivus Cloud打造语义搜索新纪元
使用text-embedding-3-large生成向量并将向量插入Mlivus Cloud实现高效语义搜索的深度解析与实战操作 在数字化时代,数据的处理和存储方式正在经历前所未有的变革。特别是随着大数据和人工智能技术的快速发展,向量数据库作为一种新型的数据存储和查询方式,正逐渐受到越来越…...
通过 Bytebase API 查看数据库审计日志
原文地址代码库 Bytebase 是一款数据库 DevOps 和 CI/CD 工具,专为开发者、DBA 和平台工程团队设计。虽然它提供了直观的 GUI 来管理数据库 schema 变更和访问控制,但有些团队可能希望使用 Bytebase API 将 Bytebase 集成到现有的 DevOps 平台中。 在之…...
# 渗透测试# 1.安全见闻(6)通讯协议
安全见闻6 通讯协议 ##B站陇羽Sec## 潜在的安全问题所涉及的领域 无线电安全,协议分析,web渗透,逆向分析 通讯协议涉及的安全主要包括以下几个方面: 1.1 保密性问题 …...
[Gdiplus/Gdi]_[中级]_[实现多行文本的多种颜色绘制-富文本绘制]
场景 在开发WTL/WIN32界面程序时,有时候需要绘制多行的段落文本,但是文本里的数值需要设置红色以便能让人第一时间关注到它。这种文本可以称之为富文本。GDI的DrawText和GDIPlus的DrawString方法都只能连续绘制某个颜色的文本。怎么实现?说明 在《绘图实现单行文本的多种颜色…...
Ubuntu如何创建一个子用户并赋与管理员权限
在Ubuntu操作系统中,如何创建一个子用户并赋与管理员权限 一、创建用户 sudo useradd -m -s /bin/bash test详细解释: sudo:以超级用户(root)权限执行该命令。useradd 命令通常需要管理员权限,因此需要加上 sudo。 useradd:创建新用户的命令。 -m:指示系统为新用户创建…...
【Linux | IO多路复用】epoll的底层原理详解
epoll 是一种高效的 I/O 多路复用机制,广泛用于 Linux 系统中,用于处理大量并发的文件描述符。它比传统的 select 和 poll 方法具有更好的性能,特别是在处理大量并发连接时。 1.epoll的设计思路 epoll是在select 出现 N 多年后才被发明的&a…...
npm run serve 提示异常Cannot read property ‘upgrade‘ of undefined
npm run serve 提示Cannot read property ‘upgrade’ of undefined 一般是proxy的target代理域名问题导致的,如下: 解决方案: proxy: { “/remoteDealerReportApi”: { target: ‘http://demo-.com.cn’, //此域名有问题,会导致…...
Muggle OCR 是一个高效的本地OCR(光学字符识别)模块
Muggle OCR 是一个高效的本地OCR(光学字符识别)模块,专为“麻瓜”设计,用于简化文本识别的过程。这个模块特别适用于处理印刷文本和解析验证码1。 以下是一些关于 Muggle OCR 的主要特点和使用方法: 特点:…...
【SpringBoot】万字源码解析——启动流程
Spring Boot启动流程 Spring Boot 的入口类: SpringBootApplication public class IntelGradingApplication {public static void main(String[] args) {SpringApplication.run(IntelGradingApplication.class, args);} }Spring Boot 的启动过程可以分为两方面&am…...
Nginx 配置初步 下
Nginx 配置初步(下) 一行代表一个指令; 每个指令有其上下文环境,比如 listen 指令只能在 http 指令块中出现,不能单独出现。1. Http 服务配置初步 1.1 常用指令 Nginx 的所有模块,打开模块我们就能看到模块中支持的指令。最常用…...
可视化ETL平台-Kettle的安装及简单使用
本章知识简介 主线A: 自连接查询; 主线B: 安装JDK与Kettle; 主线C: 使用Kettle工具. 本章目标: 1: 知道使用一张表可以实现自连接查询; [了解]注意: 左表、右表都是同一张表 2: 了解Kettle环境的安装流程; [了解]a.安装JDKb.安装Kettle 3: 熟悉使用kettle将txt数…...
java8 动态加载jar包至系统的classpath
1. io.test包 创建MyMain.java类,创建addJarToClasspath方法将jar包动态加载进系统的classpath中 package io.test;import java.io.File; import java.net.URL; import java.net.URLClassLoader; import java.lang.reflect.Method;public class MyMain {public st…...
C++二级题 计算好数:1数大于0数(二进制的位运算)
1、题目 若将一个正整数化为二进制数,在此二进制数中,我们将数字1的个数多于数字0的个数的这类二进制数称为好数。 例如: (13)10 (1101)2,其中1的个数为3,0的个数为1,则此数是好数; (10)10 (1…...
数字孪生城市:智慧城市的未来蓝图
在当今数字化时代,智能技术的广泛应用正在改变人们的生活和工作方式。数字孪生城市作为未来新型智慧城市演进的重要方向,数字孪生城市是一种将城市物理世界的各个方面转化为数字形式的技术,通过网络空间与物理世界之间的实时数据交换和仿真分…...
Java篇图书管理系统
目录 前言 一. 图书管理系统的核心 二. 图书管理系统基本框架 2.1 book包 2.1.1 Book(书籍类) 2.1.2 Booklist (书架类) 2.2 user包 2.2.1 User类 2.2.2 Administrator(管理员类) 2.2.3 Visitor(用户类) 2.…...
BUUCTF之web篇
第一题 [极客大挑战 2019]EasySQL 打开靶机后可以看到这是一个登陆的页面 我们可以尝试两种方式登录 弱口令爆破(burpsuite) 通过SQL注入里的万能密码来跳过账户和密码验证的过程 这里就需要万能密码aor true # 在这里单引号的作用是结束用户名或者密码…...
010——二叉树(2)线索化
引入: 问题1: n个节点的二叉树,用二叉链表存储,问在这个二叉链表中一共有 __个指针域? 其中,有 __个指针域不为NULL,__个指针域为NULL? 答:2n n-1 n1 在二叉链表中…...
鸿蒙拍照小助手02
项目文件目录 为了确保项目文件目录清晰,以下是完整的项目文件目录结构: code 拍照小助手/ │ ├── entry/ │ ├── src/ │ │ ├── main/ │ │ │ ├── js/ │ │ │ │ └── 默认/ │ │ │ │ ├── 页面/ │ │ │ │ │ ├── 主页/ │ │ │ │ │ │ ├…...
lua while循环
软考鸭微信小程序 过软考,来软考鸭! 提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务 Lua作为一种小巧精致的语言,特别适用于嵌入其他程序提供脚本支持。在编程中,循环结构是不可或缺的一部分,而while循环则是…...
JAVA篇之类和对象
目录 一. 面向对象 1.1 面向对象和面向过程 二. 类的定义和使用 2.1 什么是类 2.2 类的定义格式 三. 类的实例化 四. this引用 4.1 this引用的作用 五. 构造方法 5.1 构造方法重载 5.2 通过this调用其他构造方法 5.3 默认初始化 结语 一. 面向对象 Java 是一门面向对…...
IO流详解_CoderLix
主要内容 File类IO流字节流字符流异常处理Properties缓冲流转换流序列化流打印流 File类 1.1 概述 java.io.File 类是文件和目录路径名的抽象表示,主要用于文件和目录的创建、查找和删除等操作。 1.2 构造方法 public File(String pathname) :通过…...
241023-RHEL非管理员安装Docker并开放指定宿主机端口部署Gitlab
A. RHEL非管理员安装Docker 要在没有管理员权限的情况下离线安装 Docker 和 Docker Compose,虽然受到一定限制,仍有一些可行的步骤可以帮助你在有限权限下完成这项任务。需要注意的是,这种方式适用于本地用户环境下的 Docker 安装࿰…...
python ubuntu安装加速
ubuntu升级python到python3.11(可能是全网最靠谱的方法,亲测有效)_ubuntu python3.11-CSDN博客 python-release安装包下载_开源镜像站-阿里云...
电子科技网站模板/广州最新政策
起因很简单,也很悲剧。工厂大门门卫那里没有电话线,也没网线,成了一个没有信息的“孤岛”。没网线也就罢了,因为有WIFI。全厂区都覆盖了WIFI无线局域网。电话可不行。尤其是前台和门卫有时要沟通。于是采购了两部WIFI IP电话机。前…...
手机网站建设动态/公司网站页面设计
第三个问题的解决办法查了很久,最终解决了,用root用户修改配置,用其他用户启动elasticsearch [1]: max number of threads [1024] for user [leyou] is too low, increase to at least [4096] 这是线程数不够。 vim /etc/security/limits.d/2…...
徐州最新通知今天/企业网站优化价格
一、必要 1、组件名应该始终是多个单词 Vue.component(todo-item, {// ... })export default {name: TodoItem,// ... }2、组件的 data 必须是一个函数 Vue.component(some-comp, {data: function () {return {foo: bar}} })export default {data () {return {foo: bar}} }3…...
建筑培训网成绩查询/南宁seo服务公司
SharePoint 2010 BI新特性制作丰富多样的图表 在SharePoint 2010中,新增加了一个非常好用的图表Web Part,我们可以通过它来制作丰富多样的图表,叫做Chart Web Part,这部分的SDK也是小弟所写,与其他的web part不同的是&…...
预约网站怎么做/广东省广州市佛山市
以前看漫画的时候如果有对话内容,一般会有一个边框,然后带着一个三角从说话人的身上引出。类似下图这样: 应该有很多方法来实现,这里提供的办法就是创造一个边框,然后用两个三角覆盖。效果如下: 为了方便理…...
德州市住房和城乡建设局网站/谷歌搜索网页版入口
今天连接webservice开始时数据传不上去,可能是webservice搭建的有问题吧,不清楚为什么,正在查资料。 webservice还是没连接上,要继续做,其他模块也没开始。 转载于:https://www.cnblogs.com/318abc/p/4504088.html...