这AI会造宇宙!PhysGen3D把照片变成可互动的微观世界

PhysGen3D 是由 Boyuan Chen、Hanxiao Jiang 等人研发的创新性模型,融合图像理解与物理模拟,从单张图像构建可交互 3D 场景并生成视频,在多方面展现出独特优势。

  1. 核心功能:以单张图像作为输入,将其转化为以相机为中心的、非模态的交互式 3D 场景,并合成微型交互式世界的视频。通过结合基于图像的几何和语义理解技术以及基于物理的模拟技术,实现从静态图像创建交互式 3D 世界,能够依据用户输入 “想象” 并模拟未来场景。模型会对物体的 3D 形状、姿态、物理和光照属性进行估计,以此捕捉驱动真实物体交互的关键物理属性。用户还能指定精确的初始条件,像物体速度、材料属性等,从而更精细地控制生成的视频结果。
  2. 工作流程:输入图像后,先进行交互式 3D 世界构建,涉及分割、3D 几何处理等;接着开展动力学模拟,依据物理参数(如地面摩擦、初始速度等),使用 MPM(Material Point Method)算法模拟物体运动;最后通过基于物理的渲染(PBR),结合环境光、PBR 纹理等,将渲染结果与背景图像融合生成最终视频。
  3. 性能优势:与 Gen-3、Pika、Kling 等闭源的先进图像转视频模型对比,PhysGen3D 在生成视频时,不仅能保证物理现象的真实性,还具备更高的灵活性和更精细的控制能力,在照片级真实感、物理合理性和用户驱动的交互性之间实现了平衡。
  4. 应用场景:可用于密集 3D 跟踪,对物体在 3D 空间中的运动进行精准跟踪;支持视频编辑,比如在不同场景间交换物体、移除特定物体等操作,为视频创作提供了新的思路和方法。

论文地址:https://by-luckk.github.io/PhysGen3D/

类似文章

发表回复