九玩游戏中心官网VLOGGER探讨到了推行中复杂的沟通场景-九游下载中心_九游游戏中心官网

发布日期：2024-04-20 05:15 点击次数：119

谷歌的磋议东谈主员推出了一款多模态扩散模子——VLOGGER。

用户只需要向VLOGGER输入图像、语音，就能生成带语音、丰富动作的东谈主物视频。VLOGGER基于扩散模子修复而成，并建议了一种全新的架构，将文本生成图像模子与空间、时代肆意相结合，升迁视频生成的传神遵守和丰富动作。

磋议东谈主员在HDTF、TalkingHead-1KH和MENTOR等多个数据集对VLOGGER进行了轮廓测试。收尾涌现，VLOGGER在视频质料、物体复原性和时序一致性等方面发扬出色,同期还能生成丰富的上半身和手势动作。

技艺讲解：https://enriccorona.github.io/vlogger/paper.pdf

输入的图片

跟着数字化经济的速即发展，各行业对编造数字东谈主的需求越来越多。但要制作出传神的东谈主物动画视频需要无数的东谈主工调度和修补才能得到确切感，否则会出现动作缺失、肢体动作僵硬、五官不伙同等问题。

VLOGGER模子的立异之处在于，建议了全新的多阶段扩散模子架构：率先,通过使用速即扩散模子,凭据输入语音生成对应的东谈主体通顺轨迹,包括心绪、姿势、视野和眨眼细节。

然后,使用立异的时空扩散架构,将生成的东谈主体通顺轨迹及参考图像看成要求结束圆善的东谈主物视频合成。

此外，VLOGGER无需针对每个新东谈主物再行教师模子,不依赖东谈主脸检测框选区域,而是径直生成圆善宗旨图像。更伏击的是,VLOGGER探讨到了推行中复杂的沟通场景，举例，可见躯干、不同身份等,这对正确合成有用沟通的东谈主物动作至关伏击。

语音生成

第一阶段，VLOGGER使用了Transformer的神经汇聚用于收受音频波形输入,并生成一系列3D面部心绪和形体姿势参数,用于肆意编造东谈主物在视频中的动作。

为了得到传神的通顺遵守,该模子欺骗了一种统计的3D东谈主体模子,大要精准捕捉面部心绪、头部通顺、眼球动掸、眨眼以及手势等细节。通过展望基于参考图像的姿势残差,该模子不错针对特定身份生成个性化的通款式列。

为了与基于CNN的架构相兼容,该模子将展望的3D参数渲染为密集的2D暗意,包括形体的语义区域掩码和部分参考图像的歪曲视图。这些2D肆意信号将鄙人一阶段用于诱导视频生成经过。

东谈主物生成

第二阶段，VLOGGER在空间和时代上进行要求肆意,以生成高质料、肆意长度的视频。该模块收受了来自第一阶段的2D肆意信号看成输入,并以参考图像中的东谈主物身份为要求,生成传神的通顺视频帧序列。

VLOGGER基于熟练的文本到图像扩散模子,并通过一种新颖的架构对其进行扩张,加多了时域卷积层,使其大要料理时序数据。此外,VLOGGER还引入了一种"时序外推"的技艺,允许模子迭代生成肆意长度的视频片断,同期保捏时序一致性。

为了提高生生遵守,VLOGGER接管了级联扩散法子,对基础别离率的视频进行超别离重建,生成高达512x512别离率的高质料影像。

VLOGGER数据集

为提高VLOGGER的泛化才略和安全性,磋议东谈主员构建了一个大界限教师数据集MENTOR。该数据集包含80万名不同身份的东谈主物视频,视频长度磋议跳跃2200小时,障翳了不同庚事、肤色、体型和文化布景的东谈主群。

值得一提的是，数据邻接的视频均捕捉了单个东谈主物在相机前沟通的场景,并提供了相应的3D姿势和心绪标注,这关于教师VLOGGER的多模态才略透露了伏击作用。

本文素材开头VLOGGER论文，如有侵权请相关删除

END

相关资讯

热点资讯