HumanDiu基于姿势引导的DiT模型,用于长形式的人类运动视频生成

“HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation” 这一研究成果,主要涵盖研究背景、方法、生成视频类型及引用信息等方面。
- 研究背景:当前人体运动视频生成技术存在局限,在渲染手部、面部等身体细节时不够准确,尤其在长序列和复杂动作中问题突出,并且依赖固定分辨率,难以保证视觉一致性。
- 研究方法:提出 HumanDiT 框架,基于扩散变换器(DiT),在包含 14000 小时高质量视频的大型数据集上训练。利用 3D 变分自编码器(VAE)将视频片段编码到潜在空间,通过 3D 全注意力机制,以初始帧作为无噪声前缀潜在参考。姿态引导器提取身体和背景姿态特征,基于 DiT 的去噪模型渲染最终像素结果。推理时,关键点 DiT 模型根据第一帧姿态生成后续动作,姿态适配器借助引导姿态序列,通过关键点 DiT 转换和优化姿态,为参考图像赋予动画效果。
- 生成视频类型
- 姿态转移:输入单个角色图像和模板姿态视频,能生成姿态准确、身体形状逼真的语音化身视频。
- 视频续帧:支持单个人体图像的视频续帧,可生成演讲、跳舞等多样且逼真的动作。
- 音频驱动全身生成视频:相关技术报告正在完善中,更多成果展示在https://saiyan-world.github.io/goku/ 。
- 引用信息:提供了该研究成果的 BibTeX 引用格式,方便学术引用。