MVideo增强复杂动作视频,可生成的运动控制

MVideo 的技术。MVideo 是一种用于增强复杂动作视频生成的运动控制框架,能实现精确流畅的长视频动作生成。它通过把掩码序列作为额外的运动条件输入,解决了仅依靠文本提示的不足,让预期动作的呈现更加清晰、准确。
论文介绍了 MVideo 这一用于增强复杂动作视频生成的运动控制框架,主要内容如下:
- 研究背景:现有文本转视频(T2V)模型在生成具有明显或复杂动作的视频时存在困难,主要原因是文本提示无法精确传达复杂的运动细节。
- 研究内容:提出 MVideo 框架,通过将掩码序列作为额外的运动条件输入,克服文本提示的局限性,更清晰准确地表示预期动作,从而生成具有精确流畅动作的长视频。利用 GroundingDINO 和 SAM2 等基础视觉模型自动生成掩码序列,提高效率和鲁棒性。
- 模型优势
- 双控制机制:训练后的 MVideo 能有效将文本提示与运动条件相结合,生成同时满足两者标准的视频。这种双控制机制允许独立或同时改变文本提示和运动条件,实现更动态的视频生成。
- 支持多种操作:支持运动条件的编辑和组合,便于生成具有更复杂动作的视频,推动了 T2V 运动生成技术的发展,为当前视频扩散模型中改进动作描绘设定了新的基准。
- 效果展示:展示了 MVideo 与其他 T2V 模型(OpenSora-v1.2、CogVideoX-5b )的对比,还展示了 MVideo 在改变背景场景、移动对象、编辑掩码序列、改变相机运动(如相机缩放、倾斜)以及组合多个掩码序列等方面的运动控制效果 。
