CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了

简介: 【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)

随着人工智能技术的飞速发展,计算机视觉领域中的图像分割任务已经成为了一个热点研究方向。图像分割技术在医疗影像、自动驾驶、机器人视觉等多个领域都有着广泛的应用。然而,图像分割模型的泛化能力一直是研究者们关注的焦点。近期,由Haojie Zhang、Yongyi Su、Xun Xu和Kui Jia共同撰写的一篇论文《Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation》在CVPR 2024上发表,针对图像分割基础模型SAM(Segment-Anything Model)在分布偏移情况下的泛化能力不足的问题,提出了一种新的解决方案。

SAM模型作为一种先进的图像分割基础模型,通过在大规模数据集上进行训练,展现出了强大的零样本或少样本泛化能力。但是,研究者们发现,SAM模型在面对自然图像的损坏、伪装图像、医学图像等特定类型的图像时,性能表现并不理想。这种性能的下降主要是由于训练数据与测试数据之间存在的分布偏移所导致的。为了解决这一问题,研究者们提出了一种基于弱监督自训练的策略,以适应目标分布并提高模型的鲁棒性和计算效率。

在这项工作中,研究者们面临的主要挑战包括如何处理大规模源数据集、高计算成本以及错误伪标签的问题。为了克服这些挑战,他们提出了一种弱监督自训练架构,该架构通过锚点正则化和低秩微调来增强模型的适应能力和计算效率。研究者们还在目标域上引入了弱监督,例如稀疏的点注释,以提供更强的域适应线索。这些弱监督与SAM模型中的提示编码器天然兼容,使得自训练能够获得更加局部化和不那么模糊的伪预测。

通过在五种类型的下游分割任务上的验证,包括自然清洁/损坏图像、医学图像、伪装图像和机器人图像,研究者们的方法在几乎所有的测试任务中都超越了预训练的SAM模型和最新的领域适应方法。这一成果表明,所提出的方法在任务无关性方面具有显著的优势,并且在大多数下游任务中都取得了更好的性能。

然而,这项研究也存在一些局限性。首先,尽管所提出的方法在多个数据集上表现出色,但其在实际应用中的性能仍有待进一步验证。此外,由于采用了弱监督学习,模型的性能可能受限于弱标签的质量和数量。此外,该方法依赖于大量的计算资源,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2312.03502.pdf

目录
相关文章
|
机器学习/深度学习 算法 数据挖掘
YOLOv6 | 模型结构与训练策略详细解析
YOLOv6 | 模型结构与训练策略详细解析
1365 0
YOLOv6 | 模型结构与训练策略详细解析
|
1天前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
9月前
|
数据可视化 数据处理 计算机视觉
Grounded-SAM模型:自动化检测、分割、生成一切
借着Meta发布的Segment Anything视觉大模型,作者团队做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。
|
10月前
|
自然语言处理
使用bert+lstm+crf做实体识别经验总结
使用bert+lstm+crf做实体识别经验总结
129 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
【ACL 2023】面向轻量化文图检索的Dual-Encoder模型蒸馏算法ConaCLIP
ConaCLIP针对轻量化的图文检索任务进行设计,是一种通过全连接的知识交互图学习方式将知识从dual-encoder大模型中蒸馏到dual-encoder小模型的算法。
|
12月前
|
人工智能 知识图谱
将语言模型用作知识嵌入:链接预测、三元组分类全部SOTA,超越基于结构的传统方法
将语言模型用作知识嵌入:链接预测、三元组分类全部SOTA,超越基于结构的传统方法
138 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
198 0
|
机器学习/深度学习 自然语言处理 计算机视觉
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
|
机器学习/深度学习 存储 算法
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
|
机器学习/深度学习 编解码 人工智能
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
195 0
http://www.vxiaotou.com