RAIN二次元角色动作捕捉和人生成,移动端规模化稳定模态

RAIN 能在消费级设备上实现不限时长的实时动画生成,具有稳定、流畅、准确且一致性一流的特点。它支持实时转换表情和头部动作,还能任意替换动漫角色。通过高效计算跨区域的帧标记,RAIN 可缩短延迟、加快帧生成速度,从而完成高度一致的角色动画。
论文介绍了 RAIN(Real-time Animation Of Infinite Video Stream),这是一种能在消费级设备上实现实时动画生成的方案,核心内容如下:
- 研究背景:直播动画在提升在线参与度方面备受欢迎,但利用扩散模型在消费级 GPU 上实现高质量、实时且稳定的动画存在挑战,现有方法在生成长时间、连贯的视频流时,受延迟和视觉质量下降等问题限制。
- RAIN 技术
- 核心设计:通过在不同噪声水平和长时间间隔内高效计算帧标记注意力,同时对大量帧标记进行去噪,相比以往基于流的方法,能以更短延迟、更快速度生成视频帧,保持长视频流的长距离注意力,增强连续性和一致性。
- 框架与加速:采用流水线式设计处理视频流推理,对 UNet 模型进行 LCM 蒸馏,使用 TAESDV 作为 VAE 解码器,并借助 TensorRT 加速。在单个 RTX 4090 GPU 上,分辨率 512×512、以 DWPose 为特征提取器时,一般能达到 18fps,延迟约 1.5 秒。
- 实验效果:在基准数据集和生成超长视频的实验中,RAIN 在实时为角色制作动画方面,比竞争对手质量更高、更准确、更连贯,且延迟更低。展示了全身动画和跨域面部变形的测试示例,如将真实面部的表情和头部位置映射到动漫面部。
- 未来展望:RAIN 为 AI 实时动画渲染提供了可行途径,有望将 AI 与计算机图形(CG)结合应用于游戏、直播和虚拟现实等领域,利用 AI 的泛化能力渲染新场景和物体,增强合成世界的交互性。此外,论文作者还公开了代码和模型。