
论文导读--PQ3D:通过分段级分组实现多模态特征融合和 MTU3D:在线查询表示学习与动态空间记忆
MTU3D和PQ3D是两项突破性的3D视觉-语言理解技术。MTU3D提出统一框架,通过动态空间记忆库整合在线探索与物体定位能力,在多项导航基准上显著提升成功率(SR提升13.7%-23%)。其创新点包括在线查询表示学习、统一探索-定位目标和大规模VLE预训练。PQ3D则首创可提示查询机制,支持从实例分割到高级推理的多样化任务,在10个基准测试中创下新记录(如ScanNet200上AP25提升4.9%)。两项技术均展现出强大的多模态处理、实时运行和零样本迁移能力,为具身智能体的3D场景理解与导航提供了通用解决
