不同的输入图片,同样的三条相机轨迹,生成的视频:
给定输入图片和多条相机轨迹,生成视频可以深度地探索场景:
效果展示 —3D 场景生成
基于单张图,利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景:
(以下展示均为从建立的3DGS Rendering出的结果)
基于单张图和多条相机轨迹,Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景:
卓越性能:在视觉质量和生成效率等多个维度上表现卓越
Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现:
双分支相机条件策略:通过引入双分支相机条件控制策略,视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉,且相较于现有方法达到了更精确的姿态控制。Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland 可进行高效的 3D 场景前向重建,在多个基准数据集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 场景重建质量均优于现有方法。广覆盖场景生成能力:与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同,Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性,还具有很强的泛化性,能处理 out-of-domain 的场景。超高效率:在单张图像输入的问题设定下,利用单张 A100,Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍,相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。
应用场景:视频和 3D 场景内容创作的新工具
Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力,Wonderland 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。
未来展望
尽管模型表现优异,Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图 3D 场景生成技术的进步,也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。
文中视频链接:
还没有评论,来说两句吧...