
Mask2Former:用于通用图像分割的掩码注意力掩码变换器,通用分割架构(语义!实例!全景)-k学长深度学习专栏
本文提出Mask2Former,一种基于masked attention的统一分割框架。研究背景源于现有分割任务(语义/实例/全景)的割裂处理,MaskFormer虽提出统一范式但掩码生成能力有限。核心创新包括:1)masked attention机制增强query与像素特征的交互;2)多尺度特征解码器设计;3)端到端任务无关训练。实验表明其在三类分割任务中均达SOTA,但存在计算开销大、小目标分割不足等缺陷。后续工作如MaskDINO、Open-Vocabulary版本等进一步优化了检测能力和开放词汇分割



