当前位置: 首页 > news >正文

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

旅行时,想在社交平台发布一支精美的旅行 vlog,拍摄剪辑需要花费多长时间?

20 分钟?一小时?半天?

在火山引擎算法工程师眼里,可能 1 分钟都用不了,因为会有 AI 替你完成。

没错,火山引擎近期推出了一款「创意互动 vlog」产品,你只需要在进入景区时注册授权,AI 就会帮你拍摄游玩中的精彩画面,自动剪辑成旅行 vlog。

全程无需自己动手,无需费心选择拍摄地点,无需请他人帮忙拍摄,甚至游玩时不用掏出手机或相机,也不用纠结修图美颜,你只需认真享受这段经历,还没出大门,就能获得一条可以直接发抖音的视频。

「创意互动 vlog」前不久在 2023 春季火山引擎 FORCE 原动力大会正式发布,目前已在国内各地多个景区上线。

这款产品的背后,是一支奔着各大旅游景区到处跑的字节内部创业团队。

拿着「锤子」的算法工程师,遇见找到「钉子」的产品

2022 年初,火山引擎算法工程师容荣研究出了这样一项技术:

「在特定的场景里布置一些不同机位的拍摄装置,用图像识别找到场景里的人,配上专业视频编导设计的模版,就可以自动把这个人的影像剪成视频。」

那么,这个「特定的场景」应该是什么场景呢?

和所有的技术创业者一样,容荣拿着这个技术的「锤子」,开始寻找应用场景的「钉子」。

她先想到的是儿童兴趣班,比如一些培训机构提供的轮滑课、舞蹈课等场景,拍摄孩子们快乐学习的视频。

但容荣很快发现,这类培训机构市场零散、没有规模化,很难找到合适的客户来落地。

不久之后,火山引擎 AI 产品解决方案同学孟兰发现:

「将抖音的 AI 技术和文旅行业结合,配合抖音平台的优势,用 AI 来做旅行视频。」

而视频设计团队也希望有创新的视频生产方式。团队一拍即合,确定了这种 AI为景区游客拍摄剪辑 vlog 的落地方式,随即组成了一个包含算法、研发、产品、设计、编导、销售等不同角色在内的跨部门内部创业团队。

为了锁定飞驰的滑雪者,算法工程师自己设计滑雪服

孟兰说,to B 项目的落地需要边做产品、边找早期客户,针对早期客户的场景做优化,不至于闭门造车。「创意互动 vlog」产品的一个重要的早期客户是一家滑雪场。和这家滑雪场的磨合中,技术团队完成了大量迭代。

其中首要的技术问题是,当景区的拍摄装置拍下了许多视频后,如何把同一个人的部分找出来?

容荣先想到的是用图像识别结合 RFID 的方案。

RFID 全称 Radio Frequency Identification,译名射频识别。就像门禁卡一样,在一个专门的 RFID 手环上绑定游客信息,那么无论他走到哪里,刷一下卡,系统就能认出他是谁。

 

但团队去景区出差之后才发现,这种方案实在太复杂了:景区工作人员需要先把手环发给游客,然后游客绑定自己的身份,游玩结束后还要统一回收手环。而且手环的成本比较高,这种方法又麻烦、又昂贵。

于是,容荣决定改方案,保留图像识别的部分,删去 RFID 手环,而是在景区设置可交互的大屏幕,提示用户面向屏幕做一些比心、微笑、竖起大拇指、叉腰之类的表情动作。这种方案既可以借助用户姿态来确认身份,又可以增加特效、美颜等效果。

针对滑雪场景,容荣也做了很多优化。由于需要人物滑雪的照片作为模型训练的数据集,她拉着工位旁边的几位同学跑到字节跳动深圳湾办公楼下,穿着厚厚的滑雪服拍摄照片;后来还有同学联系到了一家滑雪俱乐部,请专业人士用更标准的姿势来拍照。

不过,有了训练数据,想准确地辨识人物依然有困难。

一是滑雪本身就是高速运动,容易拍不清楚;二是滑雪场有时风大雪大、阳光不好,视频会更模糊;三是雪道很长,拍摄装置很多,想要在不同拍摄装置拍摄的视频中找到同一个人,是一个技术上很难的问题。

为此,容荣干脆自己设计了一款新的滑雪服:

在胸前、肩膀等部位放置特定的编号,滑雪游客租用带有编号的滑雪服,算法只要识别出编号,就能知道是哪位游客了。

这样,结合姿态特征与滑雪服上的编号,使用「多模态聚类算法」就能准确的找到特定的游客。

过山车跑的那么快,如何决定剪哪一段?

“其实我们一开始不想做滑雪场景,因为蹭的一下就划过去了,速度太快,人群也很密集,算法不好锁定人物。但到了景区才发现,滑雪游客非常喜欢这类 vlog 服务。”容荣说。

所以,后来团队工作的一大重点就放在了滑雪、过山车、蹦极这类极限场景下。

玩这类项目时,游客最希望视频记录的是整个过程中最刺激的时刻,但这时游客表情非常激动,算法难以识别。

算法工程师容荣再次灵光一现:图像不好识别的话,那识别声音试试呢?

“风声代表速度,人声代表情绪。玩这种刺激项目的时候,一个人嗓门越大,说明他越激动;但也有人完全不叫喊,那我们就识别风声,风声越大说明速度越快、人的体验越刺激。”

极限场景惊险刺激的时刻、美丽风光让人心情大好的时刻、运动场景中表现优异的时刻,都被项目团队定义为了「高光时刻」,这是游客最深刻的记忆,也是最值得被视频记录的瞬间。

因此,项目算法团队与设计团队一起定义了一套「高光识别算法」,集成了人体手势、动作识别、人物关系检测等多种 AI 算法,能够根据场景动态捕捉游客的高光时刻,景区运营者也可以根据季节、活动等自由定制。

深入一线,感受不同地区的风霜雨雪

无论是滑雪场、游乐园还是博物馆,探索每种新游玩场景时,项目团队组团出差去现场,了解每个场景的细节特点。

线下能发现许多在办公室里闭门造车发现不了的问题,技术同学则可以改技术方案,产品经理则可以了解景区运营状况、游客动线、景色最美的位置、游客聚集的地点,了解景区管理者的经营计划。

有一次,大家组团去滑雪场出差时,正赶上了寒冬腊月,下着鹅毛大雪,连雪道都结冰了。创意互动 vlog 团队的产品、研发、设计们,和当地的安装师傅一起扛着摄影机和安装工具爬到雪坡上,寻找合适的安装位置。

作为项目的算法负责人,容荣需要做很多深入一线的工作。在安装摄像头的过程中,她需要当场根据图像质量、晨昏光线、人体在画面中的大小来判断这个位置拍出来的图像能不能用,针对现场场景采集数据、当场优化这个场景的算法准确率。

但完成当天的现场工作之后,一群人站在雪坡顶上傻眼了:

除了 AI 产品解决方案同学孟兰之外,其他人都不会滑雪。

于是,一副奇特的景象发生了:大雪纷飞的滑雪场,一群人半夜十点坐在雪坡上慢慢往下滑,有人的睫毛上都冻上了冰晶,有人滑到山下后,站起来却发现裤子都被磨到反光。


就这样,一年多里,创意互动 vlog 团队的同学们一直在产品建设的路上。

他们探索滑雪场、游乐场、打卡地等各种不同类型的园区,一边优化产品,一边提升技术,一边跑通了商业落地。

AI 产品解决方案同学孟兰说,当每一类场景率先跑通一个标杆景区后,就可以方便地将不同场景的解决方案复用,低边际成本服务其他同类景区。

“我们在滑雪这个场景的经验至少领先市场 1.5 年,因为你需要足够漫长的冬天去摸索这些经验。”

而火山引擎的技术同学们,也正在不同的 B 端业务场景下,持续探索创新,用技术赋能千行百业。

相关文章:

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

旅行时,想在社交平台发布一支精美的旅行 vlog,拍摄剪辑需要花费多长时间? 20 分钟?一小时?半天? 在火山引擎算法工程师眼里,可能 1 分钟都用不了,因为会有 AI 替你完成。 没错&#…...

MySQL的概念、编译安装,以及自动补全

一.数据库的基本概念 1、数据(Data) • 描述事物的符号记录 • 包括数字,文字,图形,图像,声音,档案记录等 • 以“记录”形式按统一的格式进行存储 2、表 • 将不同的记录组织在一起 • …...

Jmeter常见问题和工作中遇到的问题解决方法汇总

一、标题Jmeter常见问题解决 1.1 Jmeter如何针对https协议进行接口测试? 解决方法: 协议更改为:https,端口号更改为443;Jmeter默认的是:http协议,端口号是:80 1.2 Jmeter如何解决默…...

蓝牙单连接和多连接知识

蓝牙单连接和多连接知识 生活中蓝牙连接多路蓝牙的情况越来越多&#xff0c;下面介绍下单连接和多连接的知识&#xff0c;供大家参考 一&#xff1a;蓝牙单连接 蓝牙单连接也称为Point-to-Point 点对点连接&#xff0c;是最常见的蓝牙连接场景,如手机<–>车载蓝牙。&…...

Mongodb—查询数据报错 Sort operation used more than the maximum 33554432 bytes of RAM

线上服务的MongoDB中有一个很大的表数据有十几万条。然后报了下面这个错误: “exception”:”org.springframework.data.mongodb.UncategorizedMongoDbException”, “message”:”Query failed with error code 96 and error message ‘Executor error during find command:…...

Java内存异常和垃圾回收机制

内存溢出异常 Java会存在内存泄漏吗&#xff1f;请简单描述 内存泄漏是指不再被使用的对象或者变量一直被占据在内存中。理论上来说&#xff0c; Java是有GC垃圾回收机制 的&#xff0c;也就是说&#xff0c;不再被使用的对象&#xff0c;会被GC自动回收 掉&#xff0c;自动…...

linux系统挂载逻辑卷和扩展逻辑卷组

fdisk /dev/vdb fdisk /dev/vdc在分区后需要修改分区类型为 8e&#xff0c;操作过程类似&#xff1a; [rootlocal ~] $ fdisk /dev/xvdb #### 选择磁盘 Command (m for help): m #### 帮助 Command actiona tog…...

WPF:WPF原生布局说明

前言 WPF在国内讨论度很小&#xff0c;我在这里记录一下WPF简单的原生控件是如何使用的&#xff0c;顺便回忆一下WPF的基础知识&#xff0c;有些忘记的比较厉害了 WPF简介 WPF是微软推出的桌面UI软件&#xff0c;是我觉得最早实现MVVM&#xff08;数据驱动事务&#xff09;&…...

SpringMVC常用注解用法

Spring MVC是基于Servlet API构建的原始Web框架。 MVC是Model View Controller的缩写即视图模型控制器&#xff0c;是一种思想&#xff0c;而Spring MVC是对该思想的具体实现。关于SpringMVC的学习我们需要掌握用户和程序的连接、获取参数以及返回数据三大部分。而这三大功能的…...

Liunx find locate 命令详解

文章目录 find补充说明语法选项参数实例根据文件或者正则表达式进行匹配否定参数根据文件类型进行搜索基于目录深度搜索根据文件时间戳进行搜索根据文件大小进行匹配删除匹配文件根据文件权限/所有权进行匹配借助-exec选项与其他命令结合使用搜索但跳过指定的目录find其他技巧收…...

JAVA并发专题(1)之操作系统底层工作的整体认识

一、分诺依曼计算机模型 现代计算机模型是基于-冯诺依曼计算机模型&#xff0c;计算机在运行时&#xff0c;先从内存中取出第一条指令&#xff0c;通过控制器的译码&#xff0c;按指令的要求&#xff0c;从存储器中取出数据进行指定的运算和逻辑操作等加工&#xff0c;然后再按…...

WiFi(Wireless Fidelity)基础(七)

目录 一、基本介绍&#xff08;Introduction&#xff09; 二、进化发展&#xff08;Evolution&#xff09; 三、PHY帧&#xff08;&#xff08;PHY Frame &#xff09; 四、MAC帧&#xff08;MAC Frame &#xff09; 五、协议&#xff08;Protocol&#xff09; 六、安全&#x…...

Agilent安捷伦33522B任意波形发生器

Agilent安捷伦33522B任意波形发生器30兆赫 2通道 为您最苛刻的测量生成全方位信号的无与伦比的能力 具有 5 倍低谐波失真的正弦波&#xff0c;可提供更纯净的信号 脉冲频率高达 30 MHz&#xff0c;抖动减少 10 倍&#xff0c;可实现更精确的计时 具有排序功能的逐点任意波形功能…...

PostgreSQL-如何创建并发索引

索引简介 索引是数据库中一种快速查询数据的方法。索引中记录了表中的一列或多列值与其物理位置之间的对应关系&#xff0c;就好比一本书前面的目录&#xff0c;通过目录中页码就能快速定位到我们需要查询的内容。 建立索引的好处是加快对表中记录的查找或排序&#xff0c;但…...

【大数据模型】使用Claude浅试一下

汝之观览&#xff0c;吾之幸也&#xff01;本文主要聊聊Claude使用的流程&#xff0c;在最后对国内外做了一个简单问题的对比&#xff0c;希望国内的大数据模型更快的发展。 一、产品介绍 claude官网 Claude是一款由前OpenAI的研究员和工程师开发的新型聊天机器人&#xff0c;…...

鼎盛合——国产电量计芯片的分类与发展

电池技术在 200 余年的时间里不断演进&#xff0c;并在近 30 年的时间里取得了飞速发展&#xff0c;从最早期的铜-锌电池、铅酸电池&#xff0c;到目前的锂电池、钠电池&#xff0c;电池能量密度从早期的~10Wh/kg 飞速攀升至 200Wh/kg。回顾历史上来看&#xff0c;电池管理系统…...

交叉验证之KFold和StratifiedKFold的使用(附案例实战)

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…...

Cloud Kernel SIG月度动态:发布ANCK 5.10、4.19新版本,ABS新增仓库构建功能

Cloud Kernel SIG&#xff08;Special Interest Group&#xff09;&#xff1a;支撑龙蜥内核版本的研发、发布和服务&#xff0c;提供生产可用的高性价比内核产品。 01 SIG 整体进展 发布 ANCK 5.10-014 版本。 发布 ANCK 4.19-027.2 版本。 ABS 平台新增 OOT 仓库临时构建功…...

JavaScript:new操作符

一、new操作符的作用 用于创建一个给定构造函数的实例对象 new操作符创建一个用户定义的对象类型的实例 或 具有构造函数的内置对象的实例。二、new一个构造函数的执行过程 2.1、创建一个空对象obj 2.2、将空对象的原型与构造函数的原型连接起来 2.3、将构造函数中的this绑定…...

XShell配置以及使用教程

目录 1、XShell介绍 2、安装XShell 1. 双击运行XShell安装文件&#xff0c;并点击“下一步” 2. 点击“我接受许可证协议中的条款”&#xff0c;点击“下一步” 3. 点击“浏览”更改默认安装路径&#xff0c;点击“下一步” 4. 直接点击“安装” 5. 安装完成&#xff0…...

Vue3 基础语法

文章目录 1.创建Vue项目1.1创建项目1.2 初始项目 2.vue3 语法2.1 复杂写法2.2 简易写法2.3 reactive&#xff08;对象类型&#xff09;2.4 ref&#xff08;简单类型&#xff09;2.5 computed(计算属性)2.6 watch&#xff08;监听&#xff09; 3.vue3 生命周期4.vue3 组件通信4.…...

【开源项目】Disruptor框架介绍及快速入门

Disruptor框架简介 Disruptor框架内部核心的数据结构是Ring Buffer&#xff0c;Ring Buffer是一个环形的数组&#xff0c;Disruptor框架以Ring Buffer为核心实现了异步事件处理的高性能架构&#xff1b;JDK的BlockingQueue相信大家都用过&#xff0c;其是一个阻塞队列&#xf…...

双向链表实现约瑟夫问题

title: 双向链表实现约瑟夫问题 date: 2023-05-16 11:42:26 tags: **问题&#xff1a;**知n个人围坐在一张圆桌周围。从编号为k的人开始报数&#xff0c;数到m的那个人出列&#xff1b;他的下一个人又从1开始报数&#xff0c;数到m的那个人又出列&#xff1b;依此规律重复下去&…...

日心说为人类正确认识宇宙打下了基础(善用工具的重要性)

文章目录 引言I 伽利略1.1 借助天文望远镜获得了比别人更多的信息。1.2 确定了科学研究方法&#xff1a;实验和观测 II 开普勒三定律 引言 享有科学史上崇高地位的人&#xff0c;都需要在构建科学体系上有重大贡献。 日心说在哥白尼那里还是一个假说&#xff0c;伽利略拿事实…...

Kali-linux系统指纹识别

现在一些便携式计算机操作系统使用指纹识别来验证密码进行登录。指纹识别是识别系统的一个典型模式&#xff0c;包括指纹图像获取、处理、特征提取和对等模块。如果要做渗透测试&#xff0c;需要了解要渗透测试的操作系统的类型才可以。本节将介绍使用Nmap工具测试正在运行的主…...

Java版本电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展

营造全面规范安全的电子招投标环境&#xff0c;促进招投标市场健康可持续发展 传统采购模式面临的挑战 一、立项管理 1、招标立项申请 功能点&#xff1a;招标类项目立项申请入口&#xff0c;用户可以保存为草稿&#xff0c;提交。 2、非招标立项申请 功能点&#xff1a;非招标…...

Java字符串知多少:String、StringBuffer、StringBuilder

一、String 1、简介 String 是 Java 中使用得最频繁的一个类了&#xff0c;不管是作为开发者的业务使用&#xff0c;还是一些系统级别的字符使用&#xff0c; String 都发挥着重要的作用。String 是不可变的、final的&#xff0c;不能被继承&#xff0c;且 Java 在运行时也保…...

中国20强(上市)游戏公司2022年财报分析:营收结构优化,市场竞争进入白热化

易观&#xff1a;受全球经济增速下行的消极影响&#xff0c;2022年国内外游戏市场规模普遍下滑。但中国游戏公司凭借处于全球领先水平的研发、发行和运营的能力与经验&#xff0c;继续加大海外市场布局&#xff0c;推动高质量发展迈上新台阶。 风险提示&#xff1a;本文内容仅代…...

如何自学C++编程语言,聊聊C++的特点,别轻易踩坑

为什么现在有那么多C培训班呢&#xff1f;因为这些培训班可以为学生安排工作&#xff0c;而外包公司因为缺人&#xff0c;需要做很多项目&#xff0c;可能需要在全国各地分配不同的程序员去干不同的项目&#xff0c;因此需要大量的程序员入职。这样&#xff0c;外包公司就会找培…...

算法Day07 | 454.四数相加II,383. 赎金信,15. 三数之和, 18. 四数之和

Day07 454.四数相加II383. 赎金信15. 三数之和18. 四数之和 454.四数相加II 题目链接&#xff1a;454.四数相加II 寻找两个数组之和&#xff0c;是否与另外两个数组之和有特定的关系。 因为数值可能跨度太大&#xff0c;选择使用下标表示为对应的数值大小&#xff0c;会很浪费…...