VGGT-Edit：5秒完成3D场景编辑，120倍加速

Type: paper
Author: 北京大学、香港中文大学、上海AI Lab、NTU研究团队
Primary Topic: 行业动态
Ingested: 2026-05-28

Summary

VGGT-Edit是一个原生3D场景编辑框架，通过残差场预测、深度同步文本注入和视角重要性加权三大机制，直接在3D空间进行编辑而非绕回2D。单次编辑约5秒，最高实现120倍加速，在语义一致性和多视角稳定性上超越现有方法。对机器人、数字孪生、AR/VR等领域具有重要应用价值。

Key Concepts

残差场预测
深度同步文本注入
视角重要性加权
原生3D编辑
多视角一致性
120倍加速

Entities

北京大学
香港中文大学
上海AI Lab
NTU
VGGT-Edit
DeltaScene
Qwen3.5-Plus
SAM3
Qwen-Image-Editing-Max

Source

Raw: vggt-edit-3d-scene-editing-120x-speedup.md

Relations

(none)

Auto-generated on 2026-05-28

相关文章（自动整合）

AffordanceVLA：用可供性做中间表征，解决VLA「看见了却动不准」问题 — 同属相关主题（重叠度: 2，整合于 2026-06-10）