当前位置：首页 > news >正文

Hallo2 长视频和高分辨率的音频驱动的肖像图像动画（数字人技术）

news 文章来源：https://blog.csdn.net/weixin_49627776/article/details/143182295 2025/4/26 20:39:14

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION

论文：https://arxiv.org/abs/2410.07718
代码：https://github.com/fudan-generative-vision/hallo2
模型：https://huggingface.co/fudan-generative-ai/hallo2

前言：24年6月，该团队推出了Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation用于纵向图像动画的分层音频驱动视觉合成，得到了广泛关注，同时京东健康在Hallo基础上用中文数据训练的新的模型JoyHallo,10月16日，Hallo2横空出世，本文主要是介绍Hallo2论文相关内容

Hallo2演示demo

摘要

最近，基于潜在扩散的人像动画生成模型，如Hallo，在短时间视频合成中取得了令人印象深刻的结果。在本文中，作者介绍了Hallo的更新，介绍了几个设计增强以扩展其功能。首先，将该方法扩展到制作长时间的视频。为了解决诸如外观漂移和时间伪影等实质性挑战，研究了条件运动帧图像空间内的增强策略。具体来说，引入了一种增强高斯噪声的贴片掉落技术，以增强长时间的视觉一致性和时间相干性。第二，实现4K分辨率人像视频生成。为了实现这一点，实现了潜在代码的矢量量化，并应用时间对齐技术来保持跨时间维度的一致性。通过集成高质量的解码器，实现了4K分辨率的视觉合成。第三，将纵向表达式的可调语义文本标签作为条件输入。这超越了传统的音频线索，提高了可控性，增加了生成内容的多样性。本文提出的Hallo2是第一个实现4K分辨率并生成长达一小时的音频驱动肖像图像动画的方法，并通过文本提示进行增强。已经进行了大量的实验来评估在公开可用数据集上的方法，包括HDTF、CelebV和引入的“Wild”数据集。实验结果表明，作者的方法在长时间人像视频动画中实现了最先进的性能，成功地生成了长达数十分钟的4K分辨率的丰富可控内容。

技术介绍

肖像图像动画-是一个快速发展的领域，具有跨多个领域的巨大潜力。这些领域包括高质量的电影和动画制作，虚拟助理的开发，个性化的客户服务解决方案，互动教育内容的创作，以及游戏行业中的逼真角色动画。因此，生成长时间、高分辨率、音频驱动的人像动画的能力，特别是那些由文本提示辅助的动画，对这些应用程序至关重要。最近的技术进步，特别是在潜在扩散模型方面，极大地推动了这一领域的发展。

近年来出现了几种利用潜在扩散模型进行人像动画的方法。例如，VASA-1 采用Peebles和DiT模型作为扩散过程中的去噪器，将单个静态图像和音频片段转换为逼真的会话面部动画。同样，EMO框架代表了第一个端到端系统，该系统使用基于unet的扩散模型，仅使用单个参考图像和音频输入，能够生成具有高表现力和真实感的动画，无缝帧转换和身份保存。该领域的其他重大进展包括AniPortrait，EchoMimic，V-Express， Loopy和CyberHost，每个人都有助于增强肖像图像动画的功能和应用。Hallo是另一个值得注意的贡献，他们在先前的研究基础上引入了分层音频驱动的视觉合成，以实现面部表情生成、头部姿势控制和个性化动画定制。在本文中，通过引入几个设计增强来扩展其功能，对Hallo进行了更新。
在这里插入图片描述
图1：该方法处理一个参考图像和一个持续几分钟的音频输入。此外，可以在不同的间隔引入可选的文本提示，以调节和细化肖像的表达。由此产生的输出是一个高分辨率的4K视频，与音频同步，并受可选的表达式提示的影响，确保在整个延长的视频持续时间内的连续性

首先，将hello从生成简短的、第二长的肖像动画扩展到支持长达数十分钟的持续时间。如图2所示，长期视频生成通常采用两种主要方法。第一种方法包括在控制信号的引导下并行生成音频驱动的视频剪辑，然后在这些剪辑的相邻帧之间应用外观和运动约束。这种方法的一个重要限制是必须在生成的剪辑中保持最小的外观和运动差异，这阻碍了嘴唇运动，面部表情和姿势的实质性变化，由于强制连续性约束，经常导致模糊和扭曲的表情和姿势。第二种方法通过利用之前的帧作为条件信息，增量地生成新的视频内容。虽然这种方法允许连续运动，但容易产生错误积累。相对于参考图像的扭曲、变形、噪声伪影或前一帧中的运动不一致会传播到后续帧，从而降低整体视频质量。

为了达到高表现力，现实主义和丰富的运动动态，遵循第二种方法。方法主要是从参考图像中提取外观，仅利用之前生成的帧来传达运动动态-包括嘴唇运动，面部表情和姿势。为了防止前一帧对外观信息的污染，实现了一种patch-drop数据增强技术，该技术在保留运动特征的同时，对条件帧中的外观信息引入了可控的损坏。这种方法鼓励外观主要来自参考肖像图像，在整个动画中保持强大的身份一致性，并使长视频具有连续的运动。此外，为了增强对外观污染的恢复能力，将高斯噪声作为附加的数据增强技术应用于条件帧，进一步增强对参考图像的保真度，同时有效地利用运动信息。

在这里插入图片描述
图2：基于并行和增量扩散的长期人像动画生成模型的比较。(a)由于帧间连续性约束，并行生成方法可能导致模糊和表达式失真。(b)增量生成法在人脸特征和背景上都容易产生误差积累

其次，为了实现4K视频分辨率，将用于码序列预测任务的矢量量化生成对抗网络（VQGAN）离散码本空间方法扩展到时间维度。通过将时序对齐整合到码序列预测网络中，实现了生成视频的预测码序列的平滑过渡。在应用高质量解码器后，外观和运动的强一致性使方法能够增强高分辨率细节的时间相干性。

第三，为了增强长时间人像视频生成的语义控制，引入了可调节的人像表情语义文本提示作为条件输入和音频信号。通过在不同的时间间隔注入文本提示，方法可以帮助调整面部表情和头部姿势，从而使动画更加逼真和富有表现力。

为了评估提出的方法的有效性，在公开可用的数据集上进行了全面的实验，包括HDTF、CelebV和引入的“Wild”数据集。方法是第一个在肖像图像动画中实现4K分辨率，持续时间长达十分钟甚至几个小时。此外，通过结合可调节的文本提示，可以在生成过程中精确控制面部特征，方法确保了生成动画的高水平真实感和多样性。

方法

肖像图像动画的扩展技术有效地解决了生成具有复杂运动动力学的长时间高分辨率视频的挑战，以及启用音频驱动和文本提示控制。提出的方法主要从单个参考图像中提取受试者的外观，同时利用先前生成的帧作为条件输入来捕获运动信息。为了保留参考图像的外观细节并防止前一帧的污染，引入了一种结合高斯噪声注入的斑块滴数据增强技术。此外，将VQGAN离散码本预测扩展到时域，促进高分辨率视频生成并增强时间相干性。此外，将文本条件与音频信号结合起来，在长期视频生成过程中实现对面部表情和动作的多种控制。
在这里插入图片描述
图4：提出的高分辨率增强模块的示意图，演示了提取输入潜在特征的两种备选设计

具体的推理公式请参考论文原文，论文中写的很详细

实验对比

在这里插入图片描述
表1 在HDTF数据集上与现有人像动画方法的定量比较。

图6：与现有方法在HDTF数据集上的定性比较

在这里插入图片描述
表2：在CelebV数据集上与现有人像动画方法的定量比较

在这里插入图片描述
表3：在建议的“Wild”数据集上与现有方法的定量比较

图9：不同肖像风格下的肖像图像动画效果

表6:CelebV数据集上patch drop和高斯噪声增强的消蚀研究

定性比较了高分辨率增强前后的人像动画效果
在这里插入图片描述
参考图像和动作帧的注意力地图可视化

Hallo2 长视频和高分辨率的音频驱动的肖像图像动画（数字人技术）

摘要

技术介绍

最新的相关工作

方法

实验对比

相关文章：

Hallo2 长视频和高分辨率的音频驱动的肖像图像动画（数字人技术）

如何在Debian 8上使用Let‘s Encrypt保护Apache

百科知识|选购指南

Go 语言基础教程：4.常量的使用

centos服务器重启后，jar包自启动

华为云实战杂记

Lesson10---list

ASP.NET Core 8.0 中使用 Hangfire 调度 API

查看linux的版本

Mysql补充

com.baomidou.mybatisplus.extension.service.IService用法详解及使用例子

植物健康，Spring Boot来保障

mac-chrome提示您的连接不是私密连接

028.爬虫专用浏览器-抓取#shadowRoot(closed)下的内容

Serv00 免费虚拟主机零成本搭建 PHP / Node.js 网站

C#里使用ORM访问mariadb数据库

电商揭秘：商城积分体系简析

[OS] 终端控制（Terminal Control）暂停执行线程（Suspend Executing Thread）

水陆两栖车应对应急事件发挥的作用_鼎跃安全

CI/CD 流水线系统-开源框架Tekton

Spring MVC(下)

开发涉及的安全规范整理

驱动开发系列26 - Linux Graphics 调试 mesa 的 glDrawArrays (二)

laya-spine动画的使用

Vue项目实战-新能源汽车可视化（一）（持续更新中）

百度SEO前10关键词排名波动跟用户行为反馈有很大关系

基于微信小程序的电影交流平台

Java实现 itext PDF文件打印水印(文字和图片水印)

面经之一：Synchronized与ReentrantLock区别

论文速读：面向单阶段跨域检测的域自适应YOLO（ACML2021）