MVideo增强复杂动作视频，可生成的运动控制

MVideo 的技术。MVideo 是一种用于增强复杂动作视频生成的运动控制框架，能实现精确流畅的长视频动作生成。它通过把掩码序列作为额外的运动条件输入，解决了仅依靠文本提示的不足，让预期动作的呈现更加清晰、准确。

论文介绍了 MVideo 这一用于增强复杂动作视频生成的运动控制框架，主要内容如下：

研究背景：现有文本转视频（T2V）模型在生成具有明显或复杂动作的视频时存在困难，主要原因是文本提示无法精确传达复杂的运动细节。
研究内容：提出 MVideo 框架，通过将掩码序列作为额外的运动条件输入，克服文本提示的局限性，更清晰准确地表示预期动作，从而生成具有精确流畅动作的长视频。利用 GroundingDINO 和 SAM2 等基础视觉模型自动生成掩码序列，提高效率和鲁棒性。
模型优势
- 双控制机制：训练后的 MVideo 能有效将文本提示与运动条件相结合，生成同时满足两者标准的视频。这种双控制机制允许独立或同时改变文本提示和运动条件，实现更动态的视频生成。
- 支持多种操作：支持运动条件的编辑和组合，便于生成具有更复杂动作的视频，推动了 T2V 运动生成技术的发展，为当前视频扩散模型中改进动作描绘设定了新的基准。
效果展示：展示了 MVideo 与其他 T2V 模型（OpenSora-v1.2、CogVideoX-5b ）的对比，还展示了 MVideo 在改变背景场景、移动对象、编辑掩码序列、改变相机运动（如相机缩放、倾斜）以及组合多个掩码序列等方面的运动控制效果。