这AI会造宇宙！PhysGen3D把照片变成可互动的微观世界

PhysGen3D 是由 Boyuan Chen、Hanxiao Jiang 等人研发的创新性模型，融合图像理解与物理模拟，从单张图像构建可交互 3D 场景并生成视频，在多方面展现出独特优势。

核心功能：以单张图像作为输入，将其转化为以相机为中心的、非模态的交互式 3D 场景，并合成微型交互式世界的视频。通过结合基于图像的几何和语义理解技术以及基于物理的模拟技术，实现从静态图像创建交互式 3D 世界，能够依据用户输入 “想象” 并模拟未来场景。模型会对物体的 3D 形状、姿态、物理和光照属性进行估计，以此捕捉驱动真实物体交互的关键物理属性。用户还能指定精确的初始条件，像物体速度、材料属性等，从而更精细地控制生成的视频结果。
工作流程：输入图像后，先进行交互式 3D 世界构建，涉及分割、3D 几何处理等；接着开展动力学模拟，依据物理参数（如地面摩擦、初始速度等），使用 MPM（Material Point Method）算法模拟物体运动；最后通过基于物理的渲染（PBR），结合环境光、PBR 纹理等，将渲染结果与背景图像融合生成最终视频。
性能优势：与 Gen-3、Pika、Kling 等闭源的先进图像转视频模型对比，PhysGen3D 在生成视频时，不仅能保证物理现象的真实性，还具备更高的灵活性和更精细的控制能力，在照片级真实感、物理合理性和用户驱动的交互性之间实现了平衡。
应用场景：可用于密集 3D 跟踪，对物体在 3D 空间中的运动进行精准跟踪；支持视频编辑，比如在不同场景间交换物体、移除特定物体等操作，为视频创作提供了新的思路和方法。

论文地址：https://by-luckk.github.io/PhysGen3D/