当前位置: 首页 > news >正文

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑

原创  | 文 BFT机器人 

2023年8月14日-15日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店成功举办。

在「AIGC 和生成式内容」分论坛上,南洋理工大学科学与工程学院助理教授潘新钢以《Interacitve Point-Dragging Manipulation of Visual Contents》为主题分享了点拖拽的交互式编辑方向研究成果——DragGAN

潘新钢指出,当下用户对图像的创作不只停留于粗粒度编辑,而是期待对图像空间属性进行精细化控制。针对这一需求,DragGAN应运而生。通过DragGAN,用户可以选择性地指定一块可编辑区域,确定A、B两点,然后自如地将点A移动到点 B 的位置。

更重要的是,DragGAN能够呈现的不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程,即一个视频或动画的效果,丰富了其可应用场景。

DragGAN这样一个关键点拖拽式的编辑工具对目前大热的文生图的生成方式提供了一个非常好的补充,一经公布就得到了很多的关注和应用。

图像合成中我们遗漏了什么?

虽然生成式AI已经能够非常好地根据文字生成图片,但是实现更高级的图像微调仍然面临挑战。比如,我们可以把一段话术输入到Midjourney或者Stable Diffusion中,让它生成一个逼真的狮子。但是很多时候,创作的过程并不会在这里结束。

文字对图像的描述只是粗粒度的,用户更多的希望继续细粒度的去微调图像的内容,例如去改变所生成内容的姿态、转动狮子的头、增大或缩小物体的大小、移动物体的位置、甚至改变狮子的表情。这一系列操作都是关于物体空间属性的精细控制,如何对这些属性进行精细控制仍然面临比较大的挑战。

为了实现更精细的图像微调,用户需要提供更加详细和准确的信息描述,包括对图像中每个物体的具体位置、大小、姿态、纹理和颜色等属性进行描述。这些信息对于生成更加逼真和精确的图像来说非常重要。

然而,要实现高质量的图像微调并不是一件容易的事情。需要大量的数据和算法训练来提高生成器模型的精度和效果,而且还需要开发更加智能和自适应的算法来处理不同类型的输入文本。除此之外,还需要考虑如何在生成过程中保护知识产权和隐私,避免侵权行为的发生。

我们应该如何控制空间属性?

为了实现对物体空间属性的精细控制,我们可以通过沿袭文生图的方法,根据文字的描述编辑图片。目前,学术界已经有一些根据文字来改变图片内容的方法,例如让狮子的鼻子向右移动30像素。但是,这种编辑方式存在一些问题。首先,这种文字编辑需要文本模型的支持,以便理解所有可能的物体空间属性编辑方式。除了向右移动之外,还有许多其他方法可以进行编辑。其次,对于语言模型来说,它实际上很难理解30个像素在当前图像中的精确长度。因此,对于目前的文生图语言来说,精确编辑仍然是一个较大的挑战。

什么是交互式点拖动?

用户可以通过点击两个关键点来调整图像的空间属性,将红点所代表的图像语义部分移动到蓝点处,实现对图像空间属性的编辑。

这种方式具有以下几个优点:首先,它非常简单易用,只需要两个点的坐标信息;其次,用户可以精确指定抓取点和目标点的位置和距离,从而实现高度精确的编辑和调整;最后,它非常灵活,可以应用于各种不同的图像编辑场景,例如改变图像的大小、姿态、位置等。

点交拖拽的交互式编辑方向的成果——DragGAN

可以看到,用户可以选择性地指定一块可编辑区域,然后通过指定红点和蓝点,算法会将红点移到蓝点的位置。并且值得一提的是,所得到的并不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程。所以,最终呈现出来的是视频或动画的效果,这对于视频或者动画方向来说也具有一定的应用场景。

作者 | 居居手

排版 | 春花

审核 | 猫

若您对该文章内容有任何疑问,请与我们联系,将及时回应。想要了解更多资讯,请关注BFT智能机器人系统~

相关文章:

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑

原创 | 文 BFT机器人 2023年8月14日-15日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店成功举办。 在「AIGC 和生成式内容」分论坛上,南洋理工大学科学与工程学院助理教授潘新钢以《Interacitve Point-Dragging Manipulation of Visual Cont…...

【C++技能树】多态解析

Halo,这里是Ppeua。平时主要更新C,数据结构算法,Linux与ROS…感兴趣就关注我bua! 文章目录 0.多态的概念0.1 多态的定义 1. 重写2.Final与Override3.抽象类4.多态中的内存分布.4.1虚表存在哪里? 5.多态调用原理5.1 动态绑定与静…...

【爬虫笔记】Python爬虫简单运用爬取代理IP

一、前言 近些年来,网络上的爬虫越来越多,很多网站都针对爬虫进行了限制,封禁了一些不规则的请求。为了实现正常的网络爬虫任务,爬虫常用代理IP来隐藏自己的真实IP,避免被服务器封禁。本文将介绍如何使用Python爬虫来…...

IP协议-NAT机制(理解网络结构的关键要点)

前言 我们现在使用得最多的IP协议版本是IPv4,IPv4是4个字节,32位,也就是说我们的IP地址最多就只有2^32(42亿)个,在日常生活中,我们需要联网的设备都需要有IP地址才能进行通讯,很明显…...

Python UI自动化 —— 关键字+excel表格数据驱动

步骤: 1. 对selenium进行二次封装,创建关键字的库 2. 准备一个表格文件来写入所有测试用例步骤 3. 对表格内容进行读取,使用映射关系来对用例进行调用执行 4. 执行用例 1. 对selenium进行二次封装,创建关键字的库 from time imp…...

AI:06-基于OpenCV的二维码识别技术的研究

二维码作为一种广泛应用于信息传递和识别的技术,具有识别速度快、容错率高等优点。本文探讨如何利用OpenCV库实现二维码的快速、准确识别,通过多处代码实例展示技术深度。 二维码作为一种矩阵型的条码,广泛应用于各个领域,如商品追溯、移动支付、活动签到等。二维码的快速…...

Spring MVC Http Event Stream

什么是 Http Event Stream Event Stream 技术是一种实现服务器推送事件的方法,它通过在一个持续的 HTTP 连接上发送事件流来实现推送。具体来说,服务器发送一些事件到客户端,并将这些事件封装成一些指定格式的文本流。客户端通过监听这个流&…...

2023年亲测有效----树莓派启动时自动邮件上报ip

2023年亲测 树莓派启动时自动邮件上报ip 首先开启qq邮箱smtp服务shell文件内容启动自动执行python文件注意事项 首先开启qq邮箱smtp服务 然后点击开启就会有授权码 shell文件内容 在自己的shell里,运行echo $PATH,把内容覆盖下面的path。 功能 作用就…...

Direct3D颜色

在Direct3D中颜色用RGB三元组来表示,RGB数据可用俩种不同的结构来保存,第一种是D3DCOLOR,它实际上与DWORD类型完全相同,共有32位,D3DCOLOR类型种的各位被分成四个8位项,每项存储了一种颜色分量的亮度值。 由…...

LLM - 大模型速递 Baichuan2 快速入门

目录​​​​​​​ 一.引言 二.模型探索 1.模型下载 2.模型结构 ◆ Baichuan-1-13B 结构 ◆ Baichuan-2-13B 结构 3.模型测试 ◆ Baichuan-2-13B Chat 推理 ◆ Baichuan-2-13B 显存 4.模型量化 ◆ 在线量化 ◆ 离线量化 ◆ 量化效果 5.模型迁移 三.模型微调 …...

DB2和MYSQL的LOAD原理和比较测试

DB2 load的过程: (1)、装入阶段 装入阶段将源数据解析成物理数据页的格式,直接装入到数据页中。必要时还收集索引键和表统计信息。 (2)、构建索引阶段 根据在装入阶段收集的索引键创建表索引。 &#xff08…...

redisson常用api

redisson提供了很多对象类型的api&#xff0c;下面介绍下一些常用的对象api。 RBucket 可操作任何对象的api&#xff0c;前提是要确定好泛型&#xff0c;方法比较少。大小限制为512Mb。 RBucket<AnyObject> bucket redisson.getBucket("anyObject");bucket…...

MySQL——数据库以及数据表的创建

创建数据库 回到刚才创建数据库的问题&#xff0c;我们在创建数据库的时候可以通过添加一个参数&#xff0c;这个参数的意义在于当我们创建的数据库已经存在的时候则不会创建&#xff0c;也不会报错&#xff0c;如果不使用这个参数&#xff0c;则我们在重复创建一个已经存在的…...

智能配电房管理

智能配电房管理依托电易云-智慧电力物联网&#xff0c;利用先进技术手段&#xff0c;对配电房进行智能化、自动化的管理&#xff0c;以提高配电房的安全性、可靠性和效率。 智能配电房管理包括&#xff1a; 1.实时监测&#xff1a;通过传感器、监控设备等手段&#xff0c;对配…...

php如何解决高并发的问题?

在PHP中解决高并发问题可以采取以下几种策略&#xff1a; 使用缓存&#xff1a;通过使用缓存技术&#xff0c;可以将经常访问的数据存储在内存中&#xff0c;减轻数据库或其他资源的压力。常见的缓存技术包括Memcached和Redis。PHP提供了与这些缓存服务器进行交互的扩展和库。 …...

Linux操作系统

线程竞争 那么初始化一个整型为 0&#xff0c;使用一万个线程&#xff0c;每个线程都对该整型加 1&#xff0c;最后结果不一定会是 10000。这是因为整型变量的赋值操作不是原子操作&#xff0c;也就是说它不是一个不可分割的操作&#xff0c;而是由多条指令组成的。例如&#…...

华为OD:VLAN资源池

题目描述&#xff1a; VLANO 是一种对局域网设备进行逻辑划分的技术&#xff0c;为了标识不同的VLAN&#xff0c;引入VLAN ID(1-4094之间的整数)的概念。 定义一个VLAN ID的资源池&#xff08;下称VLAN资源池&#xff09;&#xff0c;资源池中连续的VLAN用开始VLAN-结束VLAN表…...

大学大创项目:手机室内AR导航APP项目思路

文章目录 一、最初的项目思路二、建图和定位分离的项目思路1、建图2、定位 个人见解&#xff0c;如有错误&#xff0c;请多包涵 一、最初的项目思路 在大创项目的开始&#xff0c;将手机确定为应用设备&#xff0c;传感器确定为相机。 由于知识储备的原因&#xff0c;在头一次…...

OpenSSL加解密算法使用方法

下面简单记录一下 Linux上openssl命令的使用方法&#xff0c;包括 OpenSSL中加解密算法的使用方法和性能测试方法&#xff0c;以便让新手朋友们能快速用起来。持续更新中 … sm3算法 $ openssl sm3 /tmp/1.txt SM3(/tmp/1.txt) baafadbe43559b7043abd1682a4e12be05692cae175…...

Excel VSTO开发10 -自定义任务面板

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 10 自定义任务面板 自定义任务面板&#xff08;有些地方称为侧边面板&#xff09;即CustomTaskPane&#xff0c;这个类在Microsoft…...

百度智能云千帆大模型丨未来人手必备的代码助手

文章目录 1. 前言2. 千帆大模型平台3. 十分友好的功能4. comate代码助手5. 总结 1. 前言 我之前给大家推荐过Poe这个网站&#xff0c;它用的人比较少&#xff0c;但一旦接触后会发现它其实挺强大的。 因为它是一个可以同时支持好几个大模型的在线聚合平台。常用的GPT4&#x…...

美客多平台经营秘籍:为何测评补单操作是必要的?

许多经营美客多平台的商家有一种观念&#xff0c;他们认为美客多平台的规则与亚马逊有所区别。在美客多上&#xff0c;店铺比产品更重要&#xff0c;而且平台的竞争相对较小。因此&#xff0c;他们认为在美客多平台进行补单操作是不必要的。 然而&#xff0c;根据美客多平台的…...

AArch64内存管理

概述 本指南介绍AArch64中的内存转换&#xff0c;这是内存管理的关键。本文介绍了如何将虚拟地址转换为物理地址、转换表格式以及软件如何管理页表缓存 (TLB)。 这些对于底层代码&#xff08;例如启动代码或驱动程序&#xff09;开发人员都很有用。对于编写软件来设置或管理内…...

导出Excel的技术分享-综合篇

导出Excel的技术分享-综合篇 简单的EasyExcel使用 /*** 最简单的写*/public void simpleWrite() {// 注意 simpleWrite在数据量不大的情况下可以使用&#xff08;5000以内&#xff0c;具体也要看实际情况&#xff09;&#xff0c;数据量大参照 重复多次写入// 写法1 JDK8// s…...

iPhone 14四款机型电池容量详细参数揭秘

苹果推出的iPhone 14系列与2021系列的设计和外形尺寸相同&#xff08;仅缩小了几分之一毫米&#xff09;&#xff0c;所以这并不奇怪&#xff0c;但电池容量也大致相同。 虽然可能不足以对电池寿命产生可衡量的影响&#xff0c;但也存在微小的差异。不同的是&#xff0c;现在有…...

Python功能强大、灵活可扩展的Statsmodels库

Statsmodels是一个功能强大、灵活可扩展的Python库&#xff0c;用于进行统计建模和数据分析。它提供了一系列丰富的统计模型和方法&#xff0c;可以帮助研究人员和数据科学家在Python环境中进行高级统计分析。 概述 在Statsmodels中&#xff0c;线性回归是最常用的统计模型之…...

AcWing 4405. 统计子矩阵(每日一题)

如果你觉得这篇题解对你有用&#xff0c;可以点点关注再走呗~ 题目描述 给定一个 NM 的矩阵 A&#xff0c;请你统计有多少个子矩阵 (最小 11&#xff0c;最大 NM) 满足子矩阵中所有数的和不超过给定的整数 K ? 输入格式 第一行包含三个整数 N,M 和 K。 之后 N 行每行包含 …...

Kali Linux渗透测试技术介绍【文末送书】

文章目录 写在前面一、什么是Kali Linux二、渗透测试基础概述和方法论三、好书推荐1. 书籍简介2. 读者对象3. 随书资源 写作末尾 写在前面 对于企业网络安全建设工作的质量保障&#xff0c;业界普遍遵循PDCA&#xff08;计划&#xff08;Plan&#xff09;、实施&#xff08;Do…...

GPT与BERT模型

NLP任务的核心逻辑是“猜概率”的游戏。BERT和GPT都是基于预训练语言模型的思想&#xff0c;通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。 Bert 类似于Transformer的Encoder部分&#xff0c;GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差…...

2023-09-06力扣每日一题-摆烂暴力

链接&#xff1a; [1123. 最深叶节点的最近公共祖先](https://leetcode.cn/problems/form-smallest-number-from-two-digit-arrays/) 题意&#xff1a; 如题 解&#xff1a; 今天搞一手暴力&#xff0c;按层存&#xff0c;按层取&#xff0c;直到只取到一个 实际代码&…...

软件下载网站模板/南山网站seo

本人机器是windows xpubuntu10.10&#xff0c;原来才装ubuntu时纯粹是为了玩玩&#xff0c;没打算长用&#xff0c;就只分了10G的空间给它&#xff0c;经过一段时间的使用&#xff0c;觉得ubuntu相当好用&#xff0c;许多软件的反应速度都比windows快&#xff0c;(可能是我的xp…...

美妆网站设计/微信小程序开发零基础入门

转自&#xff1a;http://doc.plob.org/vbird_linux/linux/linux_server/0440ntp.htm 在计算时间的时候&#xff0c;最准确的计算应该是使用‘原子震荡周期’所计算的物理时钟了 (Atomic Clock, 也被称为原子钟)&#xff0c;这也被定义为标准时间 (International Atomic Time)。…...

网站如何在国外推广/网络公关公司

使用ASP.NET上传图片汇总 1 使用标准HTML来进行图片上传 前台代码&#xff1a; <body><form id"form1"runat"server"><div><table><tr><td colspan"2"style"height: 21px">使用标准HTML来进行图片…...

盖世汽车是模仿美国哪个网站做的/seo网站推广优化

首先&#xff0c;对于近日围绕着“华为、美国、google、Github”等这些主题的报道&#xff0c;我个人是绝对挺华为的&#xff0c;但会更理性一些&#xff0c;从技术角度出发去解决根本问题&#xff0c;也就是任总在访谈中提到的那些。不得不说&#xff0c;任总真是个伟大的企业…...

广州网站建设哪家专业/今日新闻最新

模数转换芯片&#xff0c;输出的数据&#xff0c;通常用SPI通信送到处理器当中。这些数据通常是一定位数的补码&#xff0c;转换芯片你是几位的&#xff0c;数据就是几位&#xff0c;通常用12位&#xff0c;14位&#xff0c;16位&#xff0c;18位&#xff0c;20位&#xff0c;2…...

武汉新闻头条/sem和seo是什么

1、Matplotlib 简介 数据可视化有助于更有效地讲述有关数据的故事并使其易于呈现。有时很难用静态图表来解释数据的变化,为此,我们将讨论matplotlib提供的名为“Animation”的动画库之一。以下是要涵盖的主题。 最流行的Python二维绘图库是Matplolib。大多数人从Matplotlib开…...