快手的LivePortrait - 视频驱动Avatar动画框架 MusePose和Follow-Your-Pose:腾讯发布的姿势驱动人物动作 让 Avatar 动起来 - InstructAvatar、EMO、Follow-Your-Emoji 腾讯的两个让 Avatar 说话的模型:V-Express 和 MuseTalk VASA-1 微软的逼真音频驱动的实时生成会话面孔 【Synthesia最新功能】表情丰富的虚拟人和语音克隆 Rhubarb Lip Sync - AI 生成二次元角色的口型动画 Champ - 人体图像静态图片生成动画 AniPortrait - 音频驱动的真实感肖像动画合成技术 阿里的DreaMoving:基于扩散模型的人物视频生成框架 Meta 的 Audio2Photoreal - 从声音到虚拟人动起来 微软 GAIA:ZERO-SHOT的对口型单张图生成视频技术 使用 SadTalker 生成数字人视频
本项目亮点:
引入了置信度姿态引导,确保了高帧质量和时间连续性。 引入了基于姿态置信度的区域损失放大,大大减少了图像失真。 为了生成长且平滑的视频,提出了一种渐进式潜在融合策略。
Showcases
动作 跳舞 说话
试用
可以在 Replicate - https://replicate.com/zsxkib/mimic-motion 上运行 MimicMotion 进行试用。
方法
MimicMotion 结合了图像到视频的扩散模型和新颖的置信度姿态引导。模型的可训练组件包括一个时空 U-Net 和一个用于引入姿态序列作为条件的 PoseNet。置信度姿态引导的关键特性包括:
姿态序列伴随着关键点置信度评分,使模型能够根据评分自适应地调整姿态引导的影响。 高置信度的区域在损失函数中赋予更大的权重,增强其在训练中的影响。
置信度姿态引导
我们利用姿态引导帧的亮度来表示姿态估计的置信度。
这种设计增强了生成对错误引导信号的鲁棒性(姿态 1&2),并提供了可见性提示以解决姿态模糊问题(姿态 3)。
特定区域的手部细化
我们实施了一种基于置信度阈值生成掩码的策略。对于置信度评分超过预设阈值的区域,我们取消掩码,从而识别出可靠的区域。在计算视频扩散模型的损失时,相应于未遮蔽区域的损失值会被放大,使其在模型训练中比其他遮蔽区域更有效。
在相同的参考图像和姿态引导下,进行手部增强训练能够显著减少手部失真并提升视觉效果。
渐进式潜在融合以实现时间平滑
我们提出了一种渐进式的方法来生成具有时间平滑效果的长视频。在每个去噪步骤中,视频片段首先在训练模型的条件下分别去噪,参考相同的图像和相应的姿态子序列。在每个去噪步骤中,图中用虚线框标记的重叠帧根据它们的位置逐步融合。
渐进式潜在融合实现了平滑过渡,避免了视频片段边界的突然变化,从而增强了长视频生成的整体视觉时间一致性。
对比
定性评估

定量评估


